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本 书 一 直 是 数据 库 方面 的 权威 著作 ， 深 受 对 数据 库 系 统 原 理 感 兴趣 的 读者 的 喜爱 。 本 书 现 已 升 
级 至 第 8 版 ， 在 继续 保持 了 对 数据 库 技术 的 基本 内 容 提供 翔实 讲解 的 基础 上 ， 又 对 该 领域 的 未 来 发 展 
作出 展望 

本 书 为 读者 提供 了 当前 数据 库 系 统 的 全 面 介 绍 ， 同 时 为 该 领域 未 来 的 发 展 指明 了 方向 。 第 8 版 已 
经 对 目前 数据 库 系 统 的 最 新 发 展 内 容 进行 了 扩充 ， 同 时 更 加 强调 概念 的 理解 ， 而 不 局 限于 公式 的 条 陈 。 





本 书 的 重点 内 容 包 括 : 

e SQL 的 内 容 已 经 更 新 到 目前 的 最 新 标准 

@ 为 关系 数据 库 提供 了 广泛 深入 的 介绍 

e@ 对 类 型 和 域 的 本 质 的 探讨 已 经 成 为 独立 的 一 章 (第 5 章 ) . 

e 第 9 章 对 完整 性 进行 了 彻底 地 重 写 

@ 对 第 15、16 章 进行 了 修订 、 扩 充 和 完善 。 

e@ 包含 了 对 事物 的 ACID 特性 ， 以 及 对 一 些 未 得 到 完全 证 明 的 结论 的 全 面 化 的 分 析 。 

e@ 第 20 章 (类 型 继承 ) 和 第 23 章 (临时 数据 库 ) 都 进行 了 重 写 ， 以 便 更 好 地 反映 当今 数据 库 研 
第 27 章 (XML) 介绍 了 数据 库 和 XML 标准 的 关系 。 
附录 中 修订 了 交换 关系 模型 的 概要 、SQL 语 句 中 BNF 语 法 、 正 文中 重要 的 缩 略语 、 缩 略 词 和 
符号 的 术语 表 。 





作 i Date 是 关系 数据 库 技 术 领 域 中 非常 著名 的 独立 撰 稿 人 、 讲 师 、 学 者 和 顾 

办 问 。 在 英国 剑桥 大 学 获得 数学 学 士 、 硕 士 学 位 ， 在 英国 Montfort 大 
学 获得 技术 博士 学 位 。30 多 年 来 ，Date 先 生 一 直 活 跃 在 数据 库 领 域 ， 他 著述 丰富 ， 先 后 发 表 了 
多 篇 技术 性 文章 和 研究 论文 ， 并 写 有 多 部 数据 库 方面 的 著作 。 他 还 是 《Database Programming 
&& Design》 和 《Intelligent Enterprise》 的 专栏 作家 
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本 书 全 面 介绍 了 现在 应 用 广泛 的 数据 库 系统 ， 为 数据 库 技术 基础 知识 提供 坚实 的 基础 ， 
并 对 数据 库 领域 的 将 来 发 展 方向 给 出 看 法 ， 本 书 一 直 是 数据 库 方面 的 权威 著作 。 本 书 整 体 上 
可 以 划分 成 六 个 主要 部 分 : 基本 概念 、 关 系 模 型 、 数 据 库 设 计 、 事 务 管理 、 高 级 专题 、 对 象 ， 
关系 和 XML。 第 8 版 已 经 对 数据 库 系 统 目前 的 系统 的 最 新 发 展 内 容 进行 了 扩充 ; 同时 又 注重 
于 强调 概念 的 理解 ， 而 不 仅 局 限于 公式 的 条 陈 。 

本 书 可 用 作 计 算 机 展业 本 科 生 和 研究 生 学 习 数据 库 的 教科 书 ， 也 可 供 从 事 数据 库 研究 工 
作 的 相关 人 员 作 为 参考 书 。 
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对 本 书 的 赞誉 


“C.J Date 的 书 是 关系 理论 和 数学 方法 的 一 面 旗帜 …… 也 是 SQL 标准 的 先驱 。 本 书 注重 内 
容 的 翔实 以 及 概念 和 原理 的 重要 性 ， 从 而 帮助 读者 掌握 和 理解 本 领域 的 知识 。” 


一 一 Carl Eckberg， 圣 地 亚 哥 州立 大 学 
“本 书 第 8 版 全 面 、 极 佳 地 展示 了 当代 数据 库 领 域 。 尤 其 是 ，Date 将 类 型 、 关 系 、 对 象 数据 
库 和 对 象 - 关系 数据 库 等 章节 综合 在 一 起 ， 给 出 了 关于 数据 库 中 对 象 一 关系 方法 的 非常 清晰 并 且 
自 包 含 的 解释 。 
一 一 Martin K. Soiomon ， 佛 罗 里 达 大 西洋 大 学 
“Chris Date 是 计算 机 行业 中 数据 库 技 术 方面 最 受 尊敬 的 专家 和 思想 家 ， 对 于 那些 想 对 数据 
库 系 统 做 广泛 了 解 的 读者 来 说 ， 他 的 这 本 《数据 库 系 统 导论 》 仍 然 是 一 本 权威 的 著作 ， 而 且 是 
一 本 数据 库 系统 当前 发 展 动向 的 指南 。” 
一 一 Colin J. White ，Intelligent Business Strategies 公司 总 裁 
“这 是 我 所 看 过 的 解释 并 发 控制 的 最 好 的 书 ， 并 且 这 本 书 赛 括 了 本 领域 的 方方面面 。 
一 一 Bruce O. Larsen， 史 蒂 文 斯 科技 学 院 
“.….… 是 一 本 不 可 缺少 的 读物 和 参考 书 。 它 是 信息 系统 或 数据 库 实践 者 的 必 备 书籍 。” 
一 一 Declan Brady，MICS， 富 士 通 公司 系统 评定 和 数据 库 专家 
“除了 对 参考 书目 翔实 的 注释 之 外 ， 作 者 对 该 领域 的 深入 洞察 、 对 深奥 理论 的 浅显 解释 、 对 
一 些 有 争论 问题 的 开放 式 讨论 、 以 及 书 中 全 面 的 内 容 等 ， 都 使 该 书 成 为 近 20 多 年 中 数据 库 领域 
中 最 受 欢迎 的 书 。” 
一 一 Qiang Zhu， 迪 尔 伯 思 ， 密 软 根 大 学 


“ [该 书 ] 最 吸引 人 之 处 在 于 其 全 面 性 和 给 出 了 当前 研究 发 展 的 最 新 内 容 。Date 之 所 以 能 够 
写 出 该 领域 的 最 新 动态 ， 得 益 于 他 参与 了 这 些 发 展 过 程 。 


一 一 David Livingstone ， 纽 斯 卡尔 ， 诺 森 比 亚 大 学 


i 





信息 原则 (唯一 表示 的 原则 ) : 数据 库 全 部 的 信息 内 容 有 且 只 有 一 种 表示 方式 ， 也 就 是 表 中 
的 行列 位 置 有 明确 的 值 。 

黄金 规则 : 如 果 一 个 更 新 操作 将 使 数据 库 处 于 违反 自身 某 个 谓词 的 状态 ， 这 样 的 更 新 是 被 禁 
止 的 。 

(基本 和 导出 的 关系 变量 的 ) 可 交换 性 原则 : 基本 和 导出 的 关系 变量 没有 任意 的 和 不 必要 的 
区 别 。 

数据 库 相 对 性 原则 : 从 用 户 的 角度 看 ，(a) 所 有 的 关系 变量 都 是 基本 关系 变量 ; (b) 只 要 
信息 等 价 ， 数 据 库 是 “真实 ”的 这 一 点 是 任意 的 。 

规范 化 原则 : 

i 一 个 非 5NF 的 关系 变量 应 能 被 分 解 为 一 系列 的 SNF 的 投影 关系 。 

ii 通过 连接 投影 能 重 构 最 初 的 关系 变量 。 

iii, 分 解 过 程 应 保持 独立 性 。 

iv. 重 构 过 程 应 使 用 每 一 个 投影 关系 。 

v 〈……) 只 要 所 有 的 关系 变量 都 符合 5NF， 就 停止 规范 化 。 

正 交 设计 准则 : 如 果 4 和 B 是 数据 库 中 任意 的 两 个 基 关 系 变 量 ， 那 么 并 不 存在 无 损 分 解 将 4 
和 B 分 为 41,…,Am 和 Bl1,…,Bn (相互 独立 ) 使 在 A1,…,Am 中 的 某 些 投 影 4i 和 在 B1,…,Bn 中 
的 某 些 投影 Bj 有 重 辣 的 含义 。 

值 可 替代 原则 : 不 管 系统 在 何 处 需要 类 型 了 的 值 ， 类 型 了 (了 是 了 的 子 类 型 ) 的 值 总 是 可 
以 被 替换 的 。 

分 布 式 数 据 库 的 基本 原则 : 对 用 户 来 说 ， 一 个 分 布 式 系统 看 起 来 应 该 完全 像 一 个 非 分 布 式 
系统 。 





译 者 序 


计算 机 技术 的 发 展 过 程 是 一 个 不 断 创新 的 过 程 。 没 有 任何 一 项 技术 的 发 展 能 够 像 计 算 机 技术 
的 发 展 这 样 ， 其 创新 总 是 让 和 人 人 应接不暇 ， 其 进步 总 是 让 人 不 得 吹 息 的 机 会 。 数 据 库 技 术 是 计算 机 
科学 技术 中 发 展 最 快 的 领域 之 一 ， 也 是 应 用 最 广 的 技术 之 一 ， 它 是 计算 机 信息 系统 与 应 用 系统 的 
核心 技术 和 重要 基础 。 数 据 库 作为 计算 机 专业 及 相关 专业 的 核心 课程 ， 国 内 外 已 有 大 量 与 此 相关 
的 教科 书 出 版 。 初 步 分 来 ， 不 外 以 下 几 类 : 一 是 以 导论 和 概论 为 主 的 综合 类 ， 这 些 书 适合 低 年 级 
计算 机 本 科 的 人 门 教育 ; 二 是 较为 深入 的 数据 库 实 现 技 术 介 绍 ， 这 些 书 适合 高 年 级 本 科 和 低 年 级 
研究 生 的 提高 教育 ;三 是 面向 某 些 数据 库 专 门 技术 的 专 深 内 容 的 讲解 ， 适 合 数据 库 研 究 方 向 的 高 
年 级 研究 生 使 用 。 

近 30 年 来 ， 戴 特 (C. J_ Date) 博士 的 这 本 《数据 库 系 统 导论 》(《An Introduction to Data- 
base Systems》) 一 直 是 数据 库 方面 的 权威 著作 ， 经 久 不 衰 ， 深 受 读者 的 言 爱 。 作 者 戴 特 博士 是 关 
系数 据 库 技术 领域 中 非常 著名 的 独立 扔 稿 人 、 学 者 和 顾问 。 多 年 来 ， 戴 特 先生 一 直 活 有 峻 在 数据 库 
领域 ， 他 是 最 早 认识 到 卡 德 博士 (E，F.，Codd) 在 关系 模型 方面 所 做 的 开创 性 贡献 的 学 者 之 一 。 
此 次 推出 的 最 新 版 在 继续 保持 了 对 数据 库 技 术 的 基本 内 容 提 供 翔 实 讲解 的 基础 上 ， 又 对 该 领域 的 
最 新 发 展 进行 了 介绍 。 正 如 Michigan 大 学 的 Qiang Zhu 博士 对 该 书 的 评论 中 提 到 的 “(本 书 ) 除 
了 对 参考 书目 的 翔实 的 注释 之 外 ， 作 者 对 该 领域 的 深入 洞察 、 对 深奥 理论 的 浅显 的 解释 、 对 一 些 
有 争论 问题 的 开放 式 讨 论 、 以 及 书 中 有 关 前 沿 的 内 容 等 ， 都 使 该 书 成 为 近 二 十 多 年 中 数据 库 领 域 
中 最 受 欢 迎 的 书 。” 的 确 ， 戴 特 博士 这 种 深入 浅 出 的 写作 风格 和 对 大 量 第 一 手 资料 的 充分 掌握 ， 
是 本 书 长 久 不 衰 ， 生 命 力 得 以 不 断 延 续 的 根本 所 在 。 

大 约 在 20 多 年 前 ， 本 书 的 第 2 版 由 科学 出 版 社 翻译 出 版 ， 第 7 版 由 机 械 工业 出 版 社 华章 分 
社 出 版 ， 此 次 翻译 的 是 本 书 的 第 8 和 版。 在 翻译 过 程 中 ， 本 人 深 感 书 的 内 容 变 化 颇 大 。 虽 多 年 从 事 
数据 库 的 教学 工作 ， 借 本 次 翻译 之 机 ， 犹 如 重新 充电 。 尤 其 书 中 对 许多 传统 概念 的 重新 认识 和 讲 
解 ( 如 关系 模型 、 视 图 更 新 等 ) 对 本 人 启发 很 大 。 教 书 不 能 一 成 不 变 ， 教 好 书 尤其 要 推陈出新 。 
依据 翻译 的 感受 和 使 用 本 书 一 学 期 的 教学 实践 ， 归 纳 起 来 ， 我 认为 本 书 具 有 如 下 的 突出 的 特点 : 

第 一 ， 注 重 基 础 知识 的 讲解 。 每 一 本 有 关 数 据 库 的 书 都 有 其 侧重 点 ， 每 一 个 作者 也 都 有 其 所 
擅长 的 方面 ， 本 书 所 强调 的 主要 是 基础 。 要 想 在 基础 之 上 做 一 些 事情 ， 必 须要 牢 牢 地 把 握 好 基 
础 ， 并 且 对 其 有 正确 的 理解 。 戴 特 博士 一 贯 认为 关系 数据 模型 是 现代 数据 库 技 术 的 基础 ， 它 使 这 
一 领域 具有 了 科学 性 。 如 今 任何 有 关 数 据 库 技 术 基 础 的 书籍 ， 若 没有 包括 关系 模型 ， 那 它 是 不 全 
面 的 。 同 样 ， 如 果 没 有 深入 理解 关系 模型 ， 而 声称 是 数据 库 领 域 的 专家 ， 那 也 是 无 法 让 人 接受 
的 。 为 此 本 书 用 长 达 六 章 的 篇 幅 来 详细 介绍 关系 模型 的 有 关 概 念 (第 7 版 为 五 章 ) 。 

第 二 ， 注 重用 全 新 的 观点 和 视角 认识 新 旧 问 题 。 戴 特 博士 在 书 的 前 言 中 特别 引用 了 一 段 话 
“人 们 可 以 获得 一 些 确定 性 的 知识 ， 人 们 还 可 以 从 新 的 发 现 中 更 正 那些 以 前 所 接受 的 错误 的 观 
点 ， 使 其 更 为 公正 ， 正 是 从 这 个 意义 上 来 讲 ， 笔 者 认为 自己 所 一 直 信 素 并 且 尽 力 保持 的 这 种 不 断 
改变 自己 观点 的 哲学 方法 是 科学 的 。 对 于 笔者 说 的 话 ， 不 管 是 以 前 说 过 的 还 是 以 后 将 要 说 的 ， 笔 
者 并 不 像 神学 家 信奉 他 们 的 信条 那样 认为 它们 是 真理 。 笔 者 所 主张 的 只 是 在 当时 为 大 多 数 人 所 接 
受 的 较为 明智 的 看 法 ……” 我 十 分 钦佩 作者 的 这 种 精神 。 比 如 ， 关 系 模型 不 是 一 个 静态 的 事物 ， 
理解 这 一 点 是 非常 重要 的 一 一 过 去 几 年 里 它 不 断 发 展 和 进化 ， 未 来 仍 将 如 此 。 作 者 用 他 在 《对 
象 关 系数 据 库 基础 : 第 三 版 宣言 》(1998) 中 的 观点 ， 重 新 解释 了 关系 模型 的 含义 ， 并 与 传统 定 
义 相 比较 。 特 别 地 ， 书 中 对 类 型 ( 域 ) 、 关 系 值 和 关系 变量 、 完 整 性 ， 谓 词 和 视图 等 内 容 都 提出 
了 大 晤 新 的 观点 。 基 二 新 的 角 玫 ， 作 者 对 况 图 更 新 汪 传统 星人 四 的 儿 秋 在 二 
学 两 个 环节 上 都 更 便于 把 握 。 再 比如 对 传统 的 规范 化 理论 ， 增 加 了 关系 值 的 属性 、 逆 规范 化 





NV 


( denormalization) 、 正 交 设计 (orthogonal design) 和 语义 模型 等 有 关内 容 (包括 “商业 规则 ”) 。 

第 三 ， 注 重 分 析 问 题 的 本 质 ， 带 给 读者 以 思考 的 空间 。 比 如 第 18 章 信 息 空缺 ， 先 描述 空 值 
和 3VL 的 基本 思想 ， 然 后 讨论 了 这 些 思想 所 带 来 的 一 些 严重 后 果 ， 以 此 来 证 明 空 值 和 3VL 是 非 
常 严重 的 错误 。 在 关系 模型 这 样 清 晰 规范 的 系统 中 应 该 没有 它们 的 位 置 ， 但 作者 认为 对 空 值 和 
3VL 不 加 介绍 是 不 合适 的 ， 只 有 通过 分 析 批 判 ， 才 能 给 读者 更 大 的 认识 空间 。 同 样 针 对 “对 象 
数据 库 / 对 象 关 系数 据 库 为 什么 不 能 取代 关系 数据 库 ” 这 一 问题 ， 作 者 用 大 量 的 分 析 比 较 ， 论 述 
的 十 分 精彩 。 特 别 是 “对 象 DBMS 还 是 一 个 DBMS 吗 ?”， 一 语 道破 对 象 数据 库 的 本 质 。 

第 四 ， 注 重 反 映 数 据 库 的 新 技术 。 数 据 库 学 科 的 发 展 可 谓 突飞猛进 。 第 8 版 注重 补充 数据 库 
新 的 成 果 ， 但 又 不 哗众取宠 ， 取 舍得 当 是 这 部 分 的 关键 。 如 第 18 章 (空缺 信息 ), 第 20 章 (类 
型 继承 ) ， 第 22 章 (决策 支持 ), 第 23 章 (时 态 数据 库 ) ,第 24 章 (逻辑 数据 库 ) ， 和 第 21 章 
(分 布 式 数据 库 ) ,第 25、26 章 (对 象 数据 库 / 对 象 关 系数 据 库 ) 等 ， 都 是 数据 库 的 最 新 的 且 相 
对 成 熟 的 技术 。 

最 后 ， 本 书 提供 了 丰富 翔实 的 参考 文献 和 注释 。 这 也 是 本 书 一 贯 的 风格 和 传统 。 它 几乎 成 为 
一 种 书写 体例 为 大 家 所 广泛 接受 。 这 些 参考 书目 反映 了 以 前 和 现在 该 领域 的 研究 状况 ， 而 且 对 有 
兴趣 的 读者 还 提供 了 好 的 信息 资源 。 我 本 人 就 获 益 菲 浅 ， 当 我 要 查找 一 个 经 典 文献 的 出 处 时 ， 最 
先 想到 的 就 是 戴 特 博士 的 这 本 书 。 

当然 本 书 也 不 是 没有 缺点 。 可 以 看 出 ， 戴 特 博士 在 尽 其 所 能 延续 这 本 书 的 经 典 地 位 ,但 毕竟 
戴 特 博士 脱离 数据 库 学 术 界 和 大 学 教学 一 线 多 年 ， 其 对 主流 技术 的 把 握 略 显 生 朴 ， 比 如 对 数据 库 
实现 技术 无 所 涉及 ， 但 好 在 这 方面 已 有 其 他 很 好 的 教材 可 以 参考 。 


全 书 主要 包括 六 个 部 分 和 三 个 附录 。 第 一 部 分 主要 介绍 了 数据 库 系统 中 的 一 般 概念 和 关系 数 
据 库 系统 。 第 二 部 分 详细 介绍 了 关系 模型 这 一 数据 库 领域 的 基础 理论 。 第 三 部 分 讨论 了 数据 库 设 
计 的 理论 和 实践 中 的 一 些 问题 。 第 四 部 分 主要 介绍 了 事务 处 理 ， 包 括 恢 复 和 并 发 控制 。 第 五 部 分 
讨论 了 数据 库 的 一 些 高 级 主题 ,包括 : 安全 性 、 优 化 、 类 型 继承 、 分 布 式 数据 库 、 时 态 数据 库 、 
逻辑 数据 库 等 。 最 后 ， 第 六 部 分 讲解 了 对 象 关 系数 据 库 技术 以 及 XML 数据 管理 技术 。 

本 书 的 翻译 和 审 校 由 孟 小 峰 和 王 珊 共同 组 织 完成 。 参 加 翻译 的 还 有 姜 芳 苑 、 尹 少 宜 、 赖 彩 
凤 、 李 先 、 凌 妍 妍 、 王 凌 、 陈 继 东 、 刘 伟 、 周 军 锋 、 黄 静 、 贾 琳 琳 等 。 全 书 由 和 孟 小 峰 负 责 统 一 定 
稿 。 

本 书 涉及 面 广 ， 内 容 丰 富 ， 术 语 量 大 ， 由 于 译 者 水 平 有 限 ， 译 文中 不 当 之 处 在 所 难免 。 诚 县 
读者 批评 指正 并 不 音 赐 教 。 如 果 你 有 任何 建议 或 意见 ， 欢 迎 发 E - mail 至 xftmeng@ public. bta. 
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集成 、XML 数据 库 、 移 动 数据 库 等 。 
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第 8 版 前 言 


本 书 全 面 介绍 了 现在 广泛 应 用 的 数据 库 系统 。 本 书 提供 了 坚实 的 数据 库 技术 基础 知识 ， 并 对 
数据 库 领 域 未 来 的 发 展 方向 给 出 看 法 。 本 书 适合 作为 课本 ， 而 不 是 参考 书 (当然 ， 在 某 种 程度 
上 本 书 作为 参考 书 会 很 有 用 ) 。 学 习 本 书 重点 要 理解 ， 而 不 是 机 械 的 记忆 。 


本 书 前 提 


本 书 适合 任何 对 计算 技术 有 专业 兴趣 并 在 某 些 方面 也 想 理解 数据 库 系 统 内 涵 的 读者 。 作 者 假 
设 读者 应 该 至 少 对 下 面 两 方面 的 知识 有 所 了 解 : 

1) 现代 计算 机 系统 的 存储 和 文件 管理 (索引 等 ) 知识 。 

2) 至 少 一 门 高 级 编程 语言 的 特征 (Java、Pascal 、PL/I 等 )。 

关于 第 一 个 前 提 知 识 ， 请 注意 本 书 的 在 线 附 录 D“ 存 储 结构 和 存 取 方法 ”中 有 详细 的 指南 。 


结构 


必须 承认 本 书 比 较 厚 。 事 实 上 数据 库 技术 已 经 发 展 成 了 一 个 非常 庞大 的 领域 ， 以 普通 的 篇 四 
进行 全 面 介绍 是 不 太 可 能 的 〈 实 际 上 ， 大 多 数 同类 题材 的 书 都 在 1000 页 左右 ) 。 本 书 整 体 上 可 
以 划分 成 6 个 主要 部 分 : 

1) 基本 概念 。 

2) 关系 模型 。 

3) 数据 库 设计 。 

4) 事务 管理 。 

5) 高 级 专题 。 

6) 对 象 、 关 系 和 XML。 

每 一 部 分 依次 被 划分 成 几 个 章节 : 

第 一 部 分 ( 共 4 章 ) 全 面 介绍 数据 库 系统 的 一 般 概念 ， 特 别 是 关系 数据 库 系 统 ， 并 介绍 了 
标准 数据 库 语 言 SQL。 

第 二 部 分 ( 共 6 章 ) 详尽 地 介绍 关系 模型 ， 它 不 但 是 关系 数据 库 系统 的 理论 基础 ， 实 际 上 
更 是 整个 数据 库 系统 的 理论 基础 。 

第 三 部 分 ( 共 4 章 ) 讨论 数据 库 设 计 的 一 般 问 题 ， 其 中 3 章 介绍 设计 理论 ，! 章 讲解 语义 模 
型 和 实体 /关系 模型 。 

第 四 部 分 ( 共 2 章 ) 涉及 事务 管理 (也 就 是 恢复 和 并 发 控制 ) 。 

第 五 部 分 ( 共 8 章 ) 内 容 有 点 杂 ， 但 总 体 说 来 是 介绍 关系 的 概念 和 数据 库 技术 未 来 若干 方 
面 的 联系 一 一 安全 性 、 分 布 式 数据 库 、 时 态 数据 、 决 策 支持 等 。 

最 后 ， 第 六 部 分 ( 共 3 章 ) 描述 了 数据 库 系 统 中 的 对 象 技术 。 第 25 章 特别 介绍 了 对 象 系统 ; 
第 26 章 考虑 对 象 和 关系 技术 共存 的 可 能 性 ， 并 且 讨论 对 象 /关系 系统 ; 第 27 章 讨论 XML 和 数据 
库 的 相关 性 。 

本 书 有 3 个 附录 。 附 录 A 概述 一 种 全 新 的 完全 不 同 的 实现 技术 ， 称 作 TransRelationalW 模 
型 ; 附录 B 给 出 SQL 表达 式 的 BNF 范式 ; 附录 C 是 术语 表 ， 包 括 重要 的 缩 略 语 、 首 字母 缩写 词 
和 本 书 用 到 的 符号 。 


在 线材 料 ” 
me 教师 指导 手册 提供 了 如 何在 教 数据 库 课程 时 使 用 本 书 的 指导 。 它 包括 一 系列 针对 每 部 分 、 








怠 “本 教师 补充 资料 只 有 符合 条 件 的 教师 才能 得 到 ， 有 需要 者 请 与 Pearson 公司 北京 办 事 处 联系 ， 联 系 电话 : 8610 - 
88819178 或 8008100855 。 一 一 编者 注 。 





每 章 的 笔记 、 提 示 和 建议 ， 还 有 附录 和 其 他 的 辅导 资料 。 
习题 答案 (包含 在 教师 指导 手册 中 ) 。 
ppt 格式 的 幻灯 片 。 


每 个 读者 都 可 以 从 网 址 http://www. aw. com/cssupport 得 到 下 面 的 材料 : 


关于 存储 结构 和 存 取 方 法 的 附录 D (前 面 提 到 过 )。 
部 分 习题 的 解答 。 


如 何 学 习 本 书 


读者 大 体 上 应 该 按照 本 书写 作 的 顺序 阅读 ， 但 也 可 以 跳 过 后 面 的 章节 ， 建 议 第 一 次 阅读 本 书 
的 顺序 是 : 


速 读 第 1 章 和 第 2 章 。 

仔细 阅读 第 3、4 章 (4.6 节 和 4.7 节 可 以 是 例外 ) 。 

速 读 第 5 章 。 

和 仔细 阅读 第 6、7、9、10 章 , 但 可 以 跳 过 第 8 章 (8.6 节 的 SQL 部 分 应 该 看 看 )。 
浏览 第 11 章 。 

仔细 阅读 第 12、14 章 ,2 可 以 跳 过 13 章 。 

仔细 阅读 第 15、16 章 (可 能 除了 15.6 节 介 绍 的 两 阶段 提交 部 分 ) 。 

可 以 根据 个 人 的 喜好 和 兴趣 ， 有 选择 地 阅读 随后 的 章节 〈 但 要 按照 前 后 顺序 读 ) 。 


每 章 从 引言 开始 ， 以 小 结 结束 ， 每 章 都 附 有 课 后 习题 ， 本 书 的 配套 网 站 上 提供 的 在 线 答案 还 
包括 习题 知识 点 之 外 的 其 他 信息 。 大 多 数 章 节 还 包括 一 些 参 考 文献 ， 其 中 很 多 都 有 注解 。 这 种 结 
构 便 于 将 介绍 的 主题 组 织 成 层次 的 形式 ， 书 的 主体 包括 重要 的 概念 和 结果 ， 各 种 辅助 问题 和 更 复 
杂 的 方面 放 在 习题 、 答 案 或 者 参考 文献 中 (如 果 合 适 的 话 ) 。 注 意 : 参考 文献 通过 一 个 方 括号 中 
的 两 部 分 的 数字 来 区 分 。 例 如 ， 参 考 文献 [3. 1] 表示 第 3 章 最 后 所 列 出 的 参考 文献 中 的 第 一 
个 , 也 就 是 E.F. Codd 于 1982 年 2 月 发 表 在 CACM 25 第 2 期 上 的 论文 。( 参 考 文献 中 的 缩 略 语 ， 


比如 


‘CACM”， 其 解释 参见 附录 C。) 


和 早期 版 本 的 比较 
本 书 和 以 前 版 本 的 主要 区 别 是 : 


第 一 部 分 : 新 版 的 第 1 ~4 章 和 第 7 版 的 第 1 ~4 章 内 容 大 体 一 致 ， 但 在 细节 上 有 重大 的 修 
订 。 特 别 是 第 4 章 ， 对 SQL 的 介绍 升级 到 当前 标准 SQL: 1999 ， 并 以 标准 贯穿 整 书 。( 因 
此 ， 本 版 与 第 7 版 相 比 ， 有 超过 半数 章节 进行 了 修订 。) 注意 : 还 有 的 内 容 有 可 能 纳 人 下 
一 个 SQL 标准 版 本 中 一 一 2003 年 底 的 时 候 可 能 通过 一 一 在 适当 的 时 候 都 有 所 提 及 。 
第 二 部 分 : 第 5 ~ 10 章 是 关于 关系 模型 的 内 容 ， 和 第 7 版 的 第 5 ~9 章 相 比 ， 这 部 分 整体 
被 重 写 了 ， 还 扩充 了 很 多 内 容 ， 有 了 很 大 程度 的 改进 。 特 别 是 关于 类 型 〈 俗 称 为 域 ) 的 
介绍 ， 被 扩充 为 一 章 (第 5 章 ) ， 关 于 完整 性 的 介绍 (第 9 章 ) 我 彻底 地 调整 了 结构 并 进 
行 了 重 写 。 我 在 短 时 间 内 完成 这 部 分 章节 的 增 改 ， 但 更 新 的 内 容 ， 没 有 表现 在 底层 概念 
上 ， 而 是 表现 在 我 选择 如 何 描述 它们 的 方式 上 ， 这 些 改变 是 以 我 在 教授 这 部 分 内 容 时 描述 
它们 的 实践 经 历 为 基础 的 。 

注意 ; 这 里 有 必要 作 进一步 的 解释 。 本 书 的 早期 版 本 用 SQL 作为 教授 关系 概念 的 基 
础 ， 这 是 因为 我 们 相信 ， 具 体 的 东西 比 抽象 的 东西 更 容易 展示 。 但 不 幸 的 是 ，SQL 和 关 
系 模型 之 间 的 鸿沟 扩大 了 ， 并 且 这 一 鸿沟 有 继续 扩大 的 趋势 ， 最 终 会 达到 一 种 状况 ， 再 这 
样 继续 下 去 ， 有 可 能 会 误导 我 们 对 SQL 的 使 用 。 可 悲 的 是 ，SQL 越 来 越 远 离 作 为 关系 原 
理 的 具体 体现 ， 它 包含 了 太 多 不 合理 的 地 方 一 一 宛 长 、 功 能 太 多 ， 坦 率 地 说 我 压根 都 不 想 
讨论 它 。 但 是 ， 从 商业 的 角度 看 SQL 显然 很 重要 ， 因 此 每 个 数据 库 专业 人 员 都 有 必要 部 
悉 它 ,在 本 书 中 忽略 这 个 问题 也 是 不 恰当 的 。 因 此 在 书 中 介绍 了 我 的 解决 策略 : (a) 第 
一 部 分 有 一 章 来 介绍 SQL 基础 ; (b) 其 他 章 中 有 单独 的 部 分 描述 该 章 讨论 的 主题 涉及 的 
SQL 诸 方 面 。 通 过 这 种 方法 本 书 提供 了 全 面 的 、 广 泛 的 SQL 材料 ， 这 些 材料 放 在 我 觉得 
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如 果 愿 意 可 以 提前 读 第 14 章 ， 不 过 最 好 先 读 完 第 4 章 。 





合适 的 上 下 文中 。 
a 第 三 部 分 : 第 10 ~ 13 章 是 第 7 版 中 第 9 ~ 12 章 的 完美 修订 。 在 内 容 细节 上 有 全 面 的 改善 。 
注意 : 一 些 进一步 的 解释 是 有 必要 的 。 一 些 批评 家 抱怨 说 早期 版 本 关于 数据 库 设 计 主 
题 的 讨论 太 靠 后 了 ， 但 我 认为 是 学 生 们 还 没有 准备 好 来 正确 地 设计 数据 库 或 者 来 充分 理解 
设计 主题 ， 除 非 他 们 初步 理解 了 数据 库 是 什么 和 数据 库 是 如 何 应 用 的 ; 换 名 话说， 我 认为 
在 向 学 生 提出 设计 问题 前 ， 在 关系 模型 和 相关 主题 上 花 些 时 间 是 很 重要 的 。 因 此 我 仍然 认 
为 第 三 部 分 的 位 置 是 合适 的 。( 的确， 我 知道 有 些 老师 愿意 提前 教授 实体 /关系 模型 ， 因 
此 我 尽量 使 第 14 章 自 成 一 体 ， 这 样 他 们 就 可 以 在 讲 完 第 4 章 后 马上 讲述 第 14 章 了 。) 

sa 第 四 部 分 : 这 部 分 的 两 章 , 第 15、16 章 ， 是 从 第 7 版 的 第 14 、15 章 修 订 而 来 的 ， 是 完全 
的 重 写 、 扩 展 和 改进 。 特 别 是 第 16 章 ， 现 在 包括 对 所 谓 的 事务 的 ACID 属性 的 仔细 分 析 
和 一 些 相关 的 非 正统 的 结论 。 

第 五 部 分 : 第 20 章 关 于 类 型 继承 和 第 23 章 关 于 时 态 数 据 库 都 全 部 重 写 ， 以 反映 相关 领域 
的 最 新 研究 和 发 展 。 对 其 他 章节 的 修订 都 是 些 美化 工作 ， 不 过 在 解释 和 举例 上 有 所 改善 ， 
并 且 多 处 引用 了 新 材料 。 

a 第 六 部 分 : 第 25 和 26 章 是 第 7 版 的 第 24 和 25 章 的 改善 和 扩展 。 第 27 章 是 全 新 的 。 

最 后 ， 附 录 A 也 是 新 的 ， 附 录 B 和 C 分 别 是 对 第 7 版 的 附录 A 和 C 的 修订 (第 7 版 的 附录 

B 的 材料 已 经 合并 到 本 书 的 主体 部 分 了 ) 。 


本 书 的 特色 


市 场 上 的 每 本 数据 库 书籍 都 有 各 自 的 优 缺 点 ， 并 且 每 个 作者 都 是 有 针对 性 地 著 书 。 一 个 集中 
于 事务 管理 问题 ， 一 个 强调 实体 /关系 模型 ; 另 一 个 仔细 分 析 SQL 的 各 个 方面 ， 也 有 以 纯粹 “对 
象 ” 的 观点 来 介绍 数据 库 的 ， 还 有 专门 讨论 一 些 商业 数据 库 产品 的 ， 等 等 。 当 然 我 也 不 例外 ， 
我 也 有 把 削减 题材 的 人 舌头: 也 许 是 可 以 被 称 为 基础 的 短 头 。 我 坚定 地 相信 ， 当 我 们 在 基础 之 上 再 
有 所 发 展 之 前 ， 必 须 打 好 基础 ， 对 它 有 恰当 的 理解 。 这 种 信念 解释 了 我 为 什么 在 本 书 中 如 此 强调 
关系 模型 ， 特 别 是 第 二 部 分 的 篇 幅 一 一 本 书 中 最 重要 的 部 分 一 一 在 这 部 分 中 我 尽 可 能 谨慎 地 提出 
了 我 对 关系 模型 的 理解 。 我 对 基础 很 感 兴趣 ， 而 不 是 时 尚 或 流行 的 东西 。 产 品 总 是 在 改变 , 但 原 
则 更 持久 。 

在 这 方面 ， 我 希望 能 提醒 你 注意 这 个 事实 ， 对 某 些 很 重要 的 主题 (基础 ) ， 本 书 使 用 一 个 完 
整 、 深 入 的 章 (或 者 附录 ) 来 介绍 。 讨 论 的 主题 有 : 

us 类 型 

e 完整 性 

se 视图 

a 缺失 信息 

m 继承 

9 时 态 数 据 库 

mm TransRelational™ 模 型 

基于 同样 的 观点 (基础 的 重要 性 ) ， 我 必须 承认 本 书 的 整体 令 述 方式 这 几 年 来 已 经 变 了 。 前 
几 版 主要 是 自然 的 描述 ;描述 该 领域 在 实践 中 实际 的 样子 , “尽管 有 各 种 缺点 与 下 普 ”。 后 来 的 
版 本 ， 相 对 而 言说 明 性 更 多 些 ; 讨论 的 是 该 领域 应 该 是 什么 样子 和 未 来 可 能 的 发 展 方向 ， 如 果 我 
们 行事 正确 的 话 。 现 在 的 版 本 在 这 个 意义 上 的 确 是 说 明 性 的 了 (因此 这 是 带 有 个 人 观点 的 教 
材 ) 。 既 然 “ 行 事 正确 ”的 第 一 部 分 是 教育 人 什么 是 正确 的 事 ， 我 希望 ， 本 书 的 新 版 本 能 在 这 方 
面 有 所 帮助 。 

另 一 个 相关 的 观点 : 也 许 你 也 知道 ， 我 最 近 和 我 的 同事 Hugh Darwen 合作 出 版 了 另 一 本 
“说 明 性 ”的 书 ， 《Foundation for Future Database Systems ，The Third Manifesto》 (本 书 参考 文献 
[3.3] )。 。 我 们 称 该 书 为 《第 三 个 宣言 》 ， 或 者 简称 为 《宣言 》 ， 它 基于 关系 模型 为 未 来 的 数据 
库 系统 提供 详细 的 技术 上 的 建议 ; 它 是 Hugh 和 我 多 年 教学 与 思考 这 些 问题 的 结晶 。 并 且 ,《 宣 








铝 ”本 书 有 -一 个 相关 站 点 是 http ://www. thethirdmanifesto. com 更 多 的 相关 材料 也 见 http://www. dbdebunk. com 
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言 》 的 思想 渗透 在 本 书 中 。 这 并 不 是 说 阅读 《宣言 》 是 阅读 本 书 的 必要 前 提 ， 但 它 的 确 是 和 本 
书 涉及 的 内 容 有 很 大 的 直接 相关 性 ， 并 且 在 那里 经 常会 发 现 更 进一步 的 相关 信息 。 

注意 : 参考 文献 [3.3] 使 用 Tutorial D 语言 ， 用 来 解释 目的 ， 本 书 也 是 一 样 。Tutorial D 的 
语法 和 语义 多 多 少 少 是 自 解释 的 〈 该 语言 可 能 是 描述 特征 的 ， 自 由 松散 的 ， 像 “Pascal ”之 类 ) ， 
但 是 个 别 的 特征 在 第 一 次 使 用 的 时 候 会 有 所 解释 ， 如 果 有 必要 的 话 。 


结束 语 


我 愿意 用 下 面 略 微 修 改过 的 另 一 篇 序言 来 结束 这 个 前 言 一 一 伯 兰 特 . 罗素 的 《 伯 兰 特 . 罗 
素 关 于 智力 、 物 质 和 道德 辞典 》。 

我 被 指责 有 不 停 改变 观点 的 恶习 …… 我 自己 丝毫 不 以 之 (前 述 的 习惯 ) 为 了 驻 。 活 跃 于 1900 
年 的 哪个 唯物 论 者 能 自 压 在 最 后 的 半 个 世纪 他 的 观点 从 没 改 变 过 ? ……: 我 所 重视 并 且 努 力 去 追求 
的 哲学 是 科学 ， 从 某 种 意义 上 讲 就 是 要 获得 真实 的 知识 ， 新 的 发 现 会 使 任何 聪慧 的 头脑 都 不 可 训 
免 地 承认 先前 的 错误 。 至 于 我 曾经 说 过 的 ， 无 论说 得 早 或 晚 ， 我 不 会 像 那 些 空头 理论 家 出 于 他 们 
的 信念 那样 宣称 为 真理 。 我 只 能 说 我 所 表达 的 观点 目前 来 说 是 明智 合理 的 …… 如 果 后 续 的 研究 不 
能 表明 它 需要 修改 的 话 ， 我 会 很 惊讶 的 。 这 种 观点 不 是 傲慢 武断 的 声明 ， 而 是 我 目前 能 做 到 的 更 
接近 于 清楚 和 正确 思考 的 最 好 声明 。 文 字 的 清晰 是 我 追求 的 最 终 目 的 。 

如 果 你 比较 过 本 书 第 8 版 和 以 前 的 版 本 ， 你 会 发 现 我 在 许多 事情 上 已 经 改变 了 观点 〈 毫 无 
疑问 还 会 继续 改变 下 去 ) 。 我 希望 你 能 接受 上 面 引用 的 评论 ， 来 恰当 地 判断 这 件 事 的 目前 状态 。 
我 竹 同 伯 兰 特 . 罗素 关于 科学 质询 是 什么 的 观点 ， 但 是 他 对 此 观点 的 描述 比 我 所 能 描述 的 更 加 梭 
辩 、 更 有 说 服 力 。 
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第 一 部 分 基础 知识 


第 一 部 分 包括 以 下 4 章 : 

到 第 1 章 介绍 什么 是 数据 库 和 为 什么 需要 数据 库 系统 。 该 章 还 简 述 了 关系 数据 库 系统 和 其 他 
数据 库 系统 之 间 的 不 同 之 处 。 

四 第 2 章 介绍 数据 库 系统 的 一 般 体 系 结构 ， 即 ANSI/SPARC 体系 结构 。 该 体系 结构 构成 本 
书 其 他 部 分 的 基本 框架 。 

第 3 章 概括 介绍 了 关系 系统 。 其 目的 是 为 在 第 二 部 分 和 后 续 章 节 中 进一步 讨论 黄 定 基础 。 
该 章 还 介绍 并 解释 了 一 个 运行 实例 : 供应 商 和 零件 数据 库 。 

日 最后， 第 4 章 介绍 了 标准 关系 语言 SQL (更 精确 地 说 是 SQL: 1999)。 





第 1 章 数据 库 管 理 概述 


1.1 引言 


数据 库 系 统 本 质 上 是 一 个 用 计算 机 存储 记录 的 系统 。 数 据 库 本 身 可 被 看 作为 一 种 电子 文件 
柜 ; 也 就 是 说 ， 它 是 收集 计算 机 化 数据 文件 的 仓库 或 容器 。 系 统 用 户 可 以 对 这 些 文件 执行 〈 或 
要 求 系统 执行 ) 一 系列 操作 ， 例 如 

a 向 数据 库 中 增加 新 的 文件 

s 向 现 有 文件 中 插入 数据 

m 从 现 有 文件 中 检索 数据 

= 删除 现 有 文件 中 的 数据 

a 更 改 现 有 文件 中 的 数据 

删除 数据 库 中 的 现 有 文件 

图 1-1 显示 了 一 个 名 为 CELLAR ( 酒 豁 ) 的 小 型 数据 库 ， 它 只 包含 一 个 文件 。 文 件 中 依次 包 
含 各 种 酒 的 藏 酒量 情况 。 图 1-2 显示 了 一 个 该 数据 库 的 检索 操作 ， 以 及 该 操作 返回 的 数据 。 ( 注 
意 : 为 清晰 起 见 ， 在 本 书 中 ， 我 们 采用 大 写字 母 来 表示 数据 库 的 操作 名 、 文 件 名 以 及 其 他 类 似 内 
容 。 实 际 使 用 中 ， 采 用 小 写字 母 输入 这 些 内 容 会 更 方便 些 。 多 数 系统 采用 大 小 写 均 可 。) 图 1-3 
举例 说 明了 在 酒 窒 数 据 库 中 进行 插入 〈insert) 、 修 改 (change) 和 删除 (delete) 操作 的 情况 。 
插 和 人 和 删除 整个 文件 的 例子 将 在 后 续 的 章节 中 给 出 。 




































































PRODUCER BOTTLES | READY 

Chardonnay Buena Vista 2003 

Chardonnay Geyser Peak 2003 

Chardonnay Simi 2002 
12 | Joh. Riesling Jekel 2003 
21 | Fumé Blanc Ch. St. Jean 2003 
22 | Fumé Blanc Robt. Mondavi 2002 
30 | Gewiirztraminer | Ch. St. Jean 2003 
43 | Cab. Sauvignon | Windsor 2004 
45 | Cab. Sauvignon | Geyser Peak 2006 
48 | Cab. Sauvignon | Robt. Mondavi 2008 
50 | Pinot Noir Gary Farrell 2003 
51 | Pinot Noir Fetzer 2004 
52 | Pinot Noir Dehlinger 2002 
58 | Merlot Clos du Bois 

zinfandel Cline 

zinfandel Rafanelli 


图 1-1 酒 窒 数 据 库 (文件 名 为 CELLAR) 


Retrieval: 

SELECT WINE, BIN#, PRODUCER 
FROM CELLAR 

WHERE READY = 2004 ; 





Result (as Shown on, e.g9., a display screen): 


Cab. Sauvignon 43 | Windsor 
Pinot Noir 51 | Fetzer 
Merlot 58 | Clos du Bois 





图 1-2 检索 举例 





雳 1 但 发 握 翌 莹 理 委 述 了 












Inserting new data: 

INSERT 

INTO CELLAR { BIN#, WINE, PRODUCER, YEAR, BOTTLES, READY } 
VALUES ( $53, 'Pinot Noir， 'Saintsbury’', 2001, 6， 2005 ) 





Deleting existing data: 


FROM CELLAR 
WHERE BIN# = 2;，; 





Changing existing data: 
UPDATE CELLAR 

SET BOTTLES = 4 
WHERE BIN# = 3 ，; 








图 1-3 插入 /修改 /删除 举例 


从 图 1-1 到 图 1-3 中 可 以 得 出 以 下 几 点 : 

1) 首先 ， 在 图 1-2 和 图 1-3 中 列 出 的 操作 或 “语句 ”、“ 命 令 ”", 如 SELECT (查找 ) 、INSERT 
(插入 ) 、UPDATE (更 新 ) 和 DELETE (删除 ) 等 ， 都 是 用 SQL 语言 表示 的 。SQL 语言 最 初 来 自 
IBM 公司 ， 是 关系 数据 库 的 标准 交互 语言 ， 而 且 如 今 市 场 上 几乎 所 有 数据 库 产品 都 支持 它 。 由 于 它 
的 商业 重要 性 ， 在 第 4 章 给 出 了 一 个 关于 SQL 标准 的 整体 概述 ， 而 且 在 大 部 分 的 后 续 章 节 都 会 包含 
一 节 “SQL 工具 ”(SQL Facility) ， 主 要 描述 SQL 标准 中 与 该 章 的 主题 相关 的 细节 。 

注意 :“SQL” 这 一 名 字 最 初代 表 “ 结 构 化 查询 语言 ” ， 并 且 发 音 为 “sequel”。 现 在 SQL 已 
经 成 为 一 种 标准 ， 其 名 字 已 根本 不 再 有 任何 正式 的 字母 缩写 的 含义 ， 其 发 音 更 倾向 于 发 “ess 
cue-ell”。 本 书 将 采用 后 一 种 发 音 。 

2) 注意 SQL 用 关键 字 UPDATE 来 表示 “修改 ” 见 图 1-3。 这 可 能 造成 混乱 ， 因 为 “up- 
date” 这 个 词 也 经 常用 来 概括 INSERT 、UPDATE 和 DELETE 三 种 操作 。 在 书 中 我 们 将 通过 用 大 
小 写 来 区 分 这 两 种 含义 ， 即 小 写 表 示 增 、 删 、 改 ， 而 大 写 表示 UPDATE 操作 符 。 

注意 : 你 可 能 已 经 注意 到 我 们 同时 使 用 了 单词 “操作 符 ” (operator) 和 “操作 ” (opera- 
tion) 。 严 格 地 说 ， 这 两 个 词 是 有 区 别 的 (操作 是 发 生 在 操作 符 被 调用 的 时 候 ) ， 但 在 非 正 式 的 场 
合 ， 这 两 个 词 可 以 混用 。 

3) 在 SQL 中 ,例如 图 1-1 中 的 CELLAR 这 样 的 计算 机 化 文件 被 称 为 “ 表 ” (原因 显 而 易 
见 ) 。 表 中 的 行 被 看 作 是 文件 中 的 记录 ， 表 中 的 列 被 看 作 是 这 些 记录 的 字段 。 在 本 书 中 ,通常 在 
谈 及 数据 库 系 统 时 ， 我 们 使 用 “文件 ”"、“ 记 录 ” 和 “字段 ”这 些 术语 (主要 限于 前 两 章 ); 而 
在 谈 及 SQL 系统 时 ， 我 们 将 使 用 “ 表 ”、“ 行 ”和 “ 列 ” 的 叫 法 。( 从 第 3 章 开始 往 后 ， 我 们 进 
人 正式 的 讨论 ， 将 会 采用 一 些 更 为 正式 的 术语 : “关系 ”、“ 元 组 ”和 “属性 ”， 而 不 是 “ 表 ”、 
“ 行 ” 和 “ 列 ”。) 

4) 对 于 CELLAR 表 , 为 了 简化 起 见 ， 在 例子 中 我 们 默认 假设 列 WINE ( 酒 名 ) 和 PRO- 
DUCER (生产 商 ) 为 字符 串 数据 ， 而 其 他 的 列 为 整数 数据 。 然 而 ， 总 的 来 说 ， 列 里 可 以 包含 任 
意 复 杂 的 数据 类 型 。 例 如 ， 我 们 可 以 这 样 扩 展 CELLAR 表 ， 添 加 : 

w 标签 ( 酒 瓶 标签 的 照片 ) 

a 评论 (一些 酒 杂志 上 的 文本 评论 ) 

s 地 图 (展示 酒 出 产地 的 地 图 ) 

s 音符 (包含 我 们 自己 品 酒 的 音频 记录 ) 

以 及 其 他 很 多 内 容 。 为 了 简便 ， 在 书 中 我 们 采用 的 大 多 数 是 一 些 简单 的 数据 类 型 ， 但 是 不 能 忽 
视 ， 很 多 复杂 的 情形 也 是 可 以 的 。 在 后 续 的 章节 我 们 会 详细 考虑 关于 列 的 数据 类 型 的 问题 〈 尤 
其 是 第 5、6 章 和 第 26、27 章 ) 。 

5) BIN# 列 为 CELLAR 表 的 主 码 (意思 是 表 中 没有 两 行 包括 同样 的 BIN# 值 ) ， 像 在 图 1-1 中 
一 样 ， 我 们 经 常用 双 下 划 线 来 标识 主 码 列 。 

最 后 提 及 一 点 : 本 章 以 及 下 一 章 的 内 容 是 基础 性 的 ， 它 对 全 面 正确 认识 当今 数据 库 系统 的 特征 
及 功能 至 关 重 要 。 但 是 ， 不 能 否认 这 两 章 内 容 有 些 抽 象 和 枯燥 ， 而 且 涉及 大 量 新 的 概念 与 术语 。 在 





4 需 一 喜 分 基础 知 雇 


本 书 以 后 的 部 分 (尤其 是 第 3、4 章 ) 读者 会 发 现 其 内 容 不 再 那么 抽象 ， 相 应 地 也 变 得 容易 理解 。 
因此 可 以 先 略 读 前 两 章 ， 然 后 在 以 后 过 到 直接 相关 的 问题 时 再 仔细 重读 这 些 内 容 。 


1.2 数据 库 系统 的 构成 


数据 库 系统 是 指 一 个 用 计算 机 存储 记录 的 系统 ， 即 它 是 一 个 计算 机 系统 ， 该 系统 的 日 标 是 存 
储 信息 并 支持 用 户 检索 和 更 新 所 需要 的 信息 。 这 里 ee 
所 讨论 的 信息 可 以 是 个 人 或 企业 所 关心 的 任何 信 EF -| 
息 ， 换 句 话说 ， 它 是 指 任何 对 个 人 或 组 织 经 营 企业 
的 一 般 处 理 过 程 有 帮助 的 数据 。 1 人 全 全 
注意 : 在 本 书 中 ,术语 “数据 ”和 “信息 ” 
是 同义词 。 有 些 作者 更 喜欢 区 分 两 者 的 含义 ， 即 用 
“数据 ”表示 在 数据 库 中 实际 存储 的 内 容 ， 而 用 
“信息 ”表示 -一些 用 户 对 这 些 数据 的 理解 。 这 一 差 
异 显然 很 重要 ， 但 不 适合 使 用 在 两 个 本 来 同 义 的 术 
语 间 生 造 出 来 的 差异 加 以 区 别 ， 我 们 更 倾向 于 在 适 
当 的 地 方 采用 明确 表述 的 方式 。 
图 1-4 是 一 个 数据 库 系 统 的 简 图 ， 它 显示 了 数 
据 库 系统 包括 的 4 个 主要 部 分 : 数据 、 硬 件 、 软 件 图 1-4 数据 库 系统 简 图 
和 用 户 。 下 面 将 简略 地 介绍 这 4 个 部 分 。 当 然 ， 以 后 会 对 每 一 部 分 进行 更 详细 的 讨论 (除了 硬件 
部 分 ， 硬 件 的 细节 内 容 已 经 超出 了 本 书 的 范围 ) 。 
1. 数据 
数据 库 系统 可 用 于 小 至 手提 或 个 人 计算 机 、 大 到 大 型 机 或 机 群 的 各 种 计算 机 。 显 然 ， 任 一 系 
统 所 能 提供 的 功能 ， 某 种 程度 上 要 取决 于 运行 它 的 机 器 的 大 小 与 能 力 。 尤 其 是 大 型 机 上 的 系统 
(“大 型 系统 ”) 趋向 于 多 用 户 ， 而 小 型 机 上 的 系统 (“ 小 型 系统 " ) 趋向 于 单 用 户 。 单 用 户 系 统 
在 任何 给 定时 候 最 多 只 有 一 个 用 户 访问 数据 库 系统 ， 而 多 用 户 系统 可 以 同时 有 多 个 用 户 访问 数据 
库 系统 。 如 图 1-4 所 示 ， 为 了 不 失 一 般 性 ， 本 书 中 假定 采用 后 一 种 系统 ， 但 实际 上 这 一 区 别 绝 大 
多 数 用 户 是 不 关心 的 ， 因 为 通常 多 用 户 系统 的 主要 目的 就 是 让 每 个 用 户 感觉 他 或 她 像 是 在 单 用 户 
系统 上 操作 。 多 用 户 系统 的 问题 主要 是 系统 内 部 的 问题 ， 而 不 是 那些 用 户 可 见 的 问题 ( 见 本 书 
第 四 部 分 ， 尤其 是 第 16 章 ) 。 
注意 : 为 简单 起 见 ， 不 妨 假定 系统 的 全 部 数据 都 存储 在 一 个 数据 库 中 ， 本 书 中 即 采 用 这 一 假 
定 (因为 这 样本 质 上 并 不 影响 任何 其 他 的 讨论 ) 。 然 而 实际 上 ， 即 使 在 小 系统 中 ， 也 经 常 需 要 将 
数据 分 散 存放 在 不 同 数据 库 中 。 我 们 将 在 第 2 章 及 其 他 章 中 介绍 这 其 间 的 原因 。 
通常 ， 数 据 库 中 的 数据 (至少 在 大 型 系统 中 ) 既是 集成 的 ， 又 是 共享 的 。 正 如 将 在 1.4 节 
所 看 到 的 ， 数 据 集成 与 数据 共享 代表 着 在 大 型 环境 中 数据 库 系统 的 主要 优点 。 其 实数 据 集成 在 小 
型 环境 中 也 具有 重要 意义 。 当 然 ， 在 小 型 环境 中 也 还 有 很 多 其 他 的 优点 (以 后 将 讨论 )。 但 现在 
首先 解释 集成 与 共享 的 含义 。 
m 集成 指 的 是 数据 库 可 以 被 当 作 几 个 不 同文 件 的 合并 ， 数 据 库 至 少 可 以 部 分 地 消除 文件 之 间 
的 宛 余 。 例 如 ， 一 个 指定 的 数据 库 可 以 包含 一 个 EMPLOYEE (和 雇员) 文件 和 一 个 EN- 
ROLLMENT (注册 ) 文件 。EMPLOYEE 文件 中 给 出 雇员 名、 地 址 、 部 门 和 工资 ， 等 等 。 
ENROLLMENT 文件 表示 在 接受 培训 的 雇员 的 注册 信息 (参见 图 1-5) 。 现 在 假定 为 了 进 
行 培训 课程 管理 ， 需 要 清楚 每 个 在 训 学 员 所 在 的 部 门 。 那 么 ， 显 然 没 有 必要 在 ENROLL- 
MENT 文件 中 重复 有 关 的 部 门 信息 ， 因 为 需要 的 话 ， 可 以 从 EMPLOYEE 文件 中 找到 。 
am 共享 指 的 是 数据 库 中 的 每 项 数据 可 以 被 不 同 的 用 户 共享 。 换 句 话说， 每 一 个 用 户 都 可 以 因 
不 同 的 目的 而 访问 相同 的 数据 。 如 上 所 述 ， 不 同 的 用 户 甚至 可 以 同时 访问 同一 数据 (“并 
发 访问 ) 。 之 所 以 有 并 发 共享 或 其 他 方式 的 共享 ， 部 分 是 因为 数据 库 是 集成 的 。 比 如 ， 
在 图 1-5 的 例子 中 的 部 门 信息 共享 就 很 有 代表 性 ，EMPLOYEE 文件 中 的 部 门 信息 既 可 以 
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被 人 事 部 门 的 用 户 共享 ， 也 可 以 被 教育 部 门 的 用 户 所 共享 ， 即 这 两 个 部 门 的 用 户 因为 不 同 
的 目的 而 使 用 这 一 共享 信息 。( 如 果 数 据 库 是 非 共 享 的 ， 则 它 通常 被 称 作 个 人 数据 库 或 专 
用 数据 库 。) 


EMPLOYEE | NAME | ADDRESS | DEPARTMENT | SALARY | ... 
ENROLLMENT | NAME | COURSE | ... 














图 1-5 EMPLOYEE 和 ENROLLMENT 文件 


数据 库 集成 和 共享 带 来 的 另外 一 个 结果 ， 是 任 一 个 用 户 都 只 关心 整个 数据 库 中 的 一 小 部 分 ， 
而 且 不 同 用 户 所 使 用 的 数据 会 以 各 种 方式 重合 。 换 旬 话 说 ， 对 于 一 个 指定 的 数据 库 ， 不 同 的 用 户 
会 以 许多 不 同 的 方式 来 观察 。 实 际 上 ， 即 使 两 个 用 户 共 享 数 据 库 中 的 同一 块 数据 ， 在 细节 层次 
上 ， 他 们 看 待 数据 的 角度 也 会 有 所 不 同 。 这 一 点 将 在 1.5 节 和 后 续 章节 (特别 是 在 第 10 章 ) 中 
进行 详细 讨论 。 
我 们 将 在 1. 3 节 中 详细 阐述 数据 库 系 统 中 数据 部 分 的 本 质 特 征 。 
2. 硬件 
系统 的 硬件 部 分 包括 : 
a 二 级 存储 设备 ， 以 及 相关 的 VO 设备 (磁盘 驱动 器 等 )、 设 备 控制 器 、L/O 通道 等 。 二 级 
存储 设备 (通常 为 磁盘 ) 用 来 存放 数据 。 
@ 硬件 处 理 器 和 相应 的 主 存 。 硬 件 处 理 器 和 相应 的 主 存 用 于 支持 数据 库 系统 软件 的 执行 
( 见 下 一 小 节 )。 
本 书 将 不 对 系统 硬件 部 分 作 过 多 介绍 。 这 主要 基于 以 下 几 点 原因 : 一 是 硬件 部 分 内 容 庞 杂 ， 
自 成 体系 ; 二 是 硬件 方面 的 问题 不 是 数据 库 系统 独 有 的 ; 三 是 硬件 方面 的 有 关 知 识 在 其 他 资料 上 
已 经 详细 地 阐述 了 。 
3. 软件 
在 物理 数据 库 (例如 物理 存储 的 数据 ) 和 数据 库 系 统 的 用 户 之 间 有 一 层 ， 即 软件 层 ， 它 通 
常 被 称 作 数据 库 管 理 器 或 数据 库 服务 器 ， 而 其 最 通用 的 称 法 为 数据 库 管 理 系统 (DBMS) 。 所 有 
访问 数据 库 的 请 求 都 是 由 DBMS 来 处 理 的 。DBMS 提供 了 许多 对 数据 进行 操作 的 实用 程序 ， 如 
1.1 节 中 的 增加 和 删除 文件 〈 或 表 ) ， 也 可 以 在 这 些 文件 中 检索 或 更 新 数据 。DBMS 提供 的 基本 
功能 为 数据 库 用 户 屏 项 掉 了 物理 层 的 细节 (就 像 程序 设计 语言 系统 为 应 用 程序 员 屏 项 掉 物理 层 
细节 一 样 )。 换 句 话 说 ，DBMS 为 用 户 提供 了 一 种 在 硬件 层 之 上 观察 数据 库 的 高 级 别 方式 ， 并 且 
支持 用 户 以 这 种 高 级 别 方式 表达 操作 请 求 (如 在 1. 1 节 简 要 讨论 的 SQL 操作 ) 。 本 书 将 会 详细 讨 
论 DBMS 这 方面 的 功能 以 及 其 他 功能 。 
还 有 两 点 进一步 的 说 明 : 
m 在 整个 系统 中 ，DBMS 是 最 重要 的 软件 部 分 ， 但 不 是 唯一 的 。 其 他 软件 包括 实用 程序 、 应 
用 开发 工具 、 设 计 辅 助 、 报 表 书 写 器 和 (非常 重要 的 ) 事务 管理 器 或 事务 处 理 监控 器 
(TP monitor) 。 见 第 2、3 章 和 第 15、16 章 有 关 这 方面 的 更 进一步 的 讨论 。 
me DBMS 这 一 术语 也 通常 用 于 指 某 个 特定 厂商 的 特定 产品 。 例 如 ，IBM 的 基于 0S/390 的 
“DB2 Universal Database” 产品 。 术 语 DBMS 实例 (instance) 有 了 时 用 于 指 这 些 产品 运行 于 
某 一 特定 的 计算 机 设备 上 的 特定 副本 。 正 如 大 家 将 会 看 到 的 ， 有 时 有 必要 区 别 这 两 个 
念 。 
注意 : 有 时 企业 的 人 员 用 数据 库 这 一 术语 而 实际 上 是 指 DBMS。 以 下 是 一 个 典型 的 例子 : 
“Xx 厂商 的 数据 库 与 了 厂商 的 数据 库 的 性 能 比 是 二 比 一 。” 这 种 用 法 是 不 恰当 的 ， 但 却 非常 普遍 。 
( 当然 ， 问 题 是 如 果 我 们 称 数据 库 管 理 系统 为 数据 库 ， 就 会 把 它 与 真正 的 数据 库 混淆 。) 
4. 用 户 
我 们 考虑 三 类 主要 用 户 〈 相 互 间 可 能 会 有 些 重 登 ) : 
em 首先 是 应 用 程序 员 。 应 用 程序 员 负 责编 写 数 据 库 应 用 程序 。 他 们 使 用 某 些 程序 设计 语言 ， 
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如 COBOL、PL/AI、C++ 、Java 或 某 种 高 级 的 第 四 代 语 言 ( 见 第 2 章 ) ， 来 编写 应 用 程序 。 

这 些 程序 通过 向 DBMS 发 出 SQL 语句 请 求 来 访问 数据 库 。 这 些 程序 通常 可 以 是 批 处 理应 

用 程序 或 联机 应 用 程序 ， 目 的 是 允许 最 终 用 户 通过 联机 工作 站 或 终端 访问 数据 库 。 大 多 数 

当今 的 应 用 程序 都 是 联机 方式 的 。 

s 第 二 类 用 户 是 最 终 用 户 。 他 们 从 联机 工作 站 或 终端 与 系统 交互 。 最 终 用 户 可 以 通过 联机 应 

用 程序 访问 数据 库 ， 或 者 使 用 数据 库 系统 软件 提供 的 接 日 。 当 然 ， 这 些 由 厂商 提供 的 接口 

也 可 以 被 联机 应 用 程序 的 方式 所 支持 ,但 是 这 些 应 用 程序 是 内 建 的 (build in) ， 而 不 是 用 

户 编写 的 。 大 多 数 数据 库 系 统 至 少 包括 一 种 内 建 的 应 用 程序 ， 即 查询 语言 处 理 器 ， 通 过 它 

用 户 可 以 交互 地 发 出 数据 库 请 求 〈( 就 是 人 们 所 熟知 的 语句 或 指令 ) 给 DBMS， 诸如 SE- 

LECT 和 INSERT。SQL 是 一 个 典型 的 数据 库 查 询 语言 的 实例 。( 注意 :“ 查 询 语言 ”一 词 

虽 很 常用 ， 但 其 实 它 有 用 词 不 当 之 嫌 。 因 为 自然 语言 的 动词 “查询 ”只 表示 查找 数据 ， 

而 查询 语言 通常 (并 不 总 是 ) 还 提供 更 新 和 其 他 操作 。) 

大 多 数 系统 也 提供 其 他 内 建 的 界面 。 通 过 这 种 界面 ， 用 户 根本 不 发 出 像 SELECT 或 INSERT 
这 样 明确 的 数据 库 请 求 ， 而 是 代 之 以 选择 菜单 中 的 一 项 或 填充 表格 中 的 一 栏 。 这 样 的 菜单 驱动 或 
表格 驱动 界面 对 于 并 未 受过 正式 IT 训练 的 人 来 说 更 容易 (IT 即 信息 技术 ; IS 是 信息 系统 的 缩写 
词 ) 。 然 而 ， 使 用 命令 驱动 界面 (如 查询 语言 ) 需要 一 定量 的 专业 训练 (很 显然 不 像 用 COBOL 
语言 编写 一 个 应 用 程序 那样 麻烦 ) 。 同 时 ， 命 令 驱 动 界 面 有 时 会 比 菜 单 驱动 或 表格 驱动 界面 更 灵 
活 。 在 这 类 界面 中 ， 其 查询 语言 中 包含 了 某 些 特性 ， 而 它们 可 能 不 被 其 他 界面 所 支持 。 

se 第 三 类 用 户 没 有 在 图 1-4 中 显示 。 他 们 是 数据 库 管理 员 或 简称 为 DBA。 有 关 数 据 库 管理 

员 职 能 的 讨论 ， 请 参见 1.4 节 和 第 2 章 的 2.7 节 。 

以 上 完成 了 对 数据 库 系 统 主要 方面 的 初步 描述 ， 在 以 后 的 章节 中 我 们 还 会 更 进一步 讨论 这 方 
面 的 内 容 。 


1.3 数据 库 的 内 洒 


1. 持久 数据 

数据 库 中 的 数据 通常 被 认为 是 持久 存储 的 〈 尽 管事 实 上 保存 并 非 很 久 !1) 。 对 于 持久 性 ， 直 
观 上 是 为 了 把 数据 库 中 的 数据 与 其 他 的 输入 数据 、 输 出 数据 、 控 制 语 句 、 工 作 队 列 、 软 件 控制 
块 、SQL 语句 和 中 间 结 果 等 临时 数据 相 区 分 ， 而 且 通 常任 何 数据 本 质 上 都 是 暂时 的 。 更 精确 地 
说 ,我们 说 数据 库 中 的 数据 是 持久 的 ， 是 因为 一 旦 数据 进入 数据 库 被 DBMS 接受 ， 就 只 有 向 
DBMS 提出 某 些 明 确 的 请 求 时 ， 才 能 从 数据 库 中 删除 数据 。 这 有 别 于 某 些 程序 运行 结束 时 产生 的 
副产品 。 这 种 持久 性 的 概念 使 得 我 们 可 以 给 数据 库 下 一 个 更 精确 的 定义 : 

数据 库 是 一 个 持久 数据 的 集合 ， 这 些 数据 用 于 某 企业 的 应 用 系统 中 。 

这 里 “企业 ”一 词 只 是 一 个 方便 的 通称 ， 可 指 代 任 何 独 立 的 商业 组 织 、 科 学 组 织 、 技 术 组 
织 或 其 他 组 织 。 企 业 可 能 仅 是 个 人 【一 个 小 的 个 人 数据 库 ) ， 或 者 是 一 个 公司 或 类 似 的 大 型 实体 
(有 一 个 大 型 的 共享 数据 库 ) ， 或 是 任何 界 于 两 者 之 间 的 单位 。 如 下 面 的 例子 : 

1) 制造 公司 

2) 银行 

3) 医院 

4) 大 学 

5) 政府 部 门 

任何 企业 必须 保存 与 自身 运作 有 关 的 大 量 数据 ， 这 些 就 是 上 面 提 到 的 持久 数据 。 上 述 企业 主 
要 (分别 ) 包含 下 列 持久 数据 : 

1) 生产 数据 

2) 会 计数 据 

3) 病人 数据 

4) 学 生 数 据 
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5) 计划 数据 

注意 : 本 书 的 前 6 版 使 用 “操作 型 数据 ” 代 震 “持久 性 数据 ”。 早 期 的 术语 反映 了 数据 库 的 重 
点 在 操作 型 应 用 或 生产 型 应 用 。 例 如 ， 例 行 的 、 经 常 重复 的 应 用 ， 这 些 应 用 程序 要 重复 地 执行 以 支 
持 企业 的 日 常 运 行 ( 例 如 ， 银 行 系统 中 支持 存款 和 取款 操作 的 应 用 程序 )。 术 语 联 机 事务 处 理 
(OLTP) 用 于 指 这 种 环境 。 但 是 ， 渐 渐 地 ， 数 据 库 也 面向 其 他 类 型 应 用 ， 例 如 ， 决 策 支 持 应 用 ， 这 
样 ， 操 作 型 数据 的 说 法 就 不 再 合适 了 。 事 实 上 ， 目 前 的 企业 经 常 有 两 个 独立 的 数据 库 : 一 个 保存 操 
作 型 数据 ; 另 一 个 称 为 数据 仓库 ， 保 存 决策 支持 数据 。 数 据 仓 库 通 常 包 括 概要 信息 〈 如 总 计 、 均 
值 )， 而 这 些 概 要 信息 来 自 于 操作 型 数据 库 ， 也 就 是 说 ， 以 一 定时 间 间 隔 ， 一 天 一 次 或 一 周一 次 从 
操作 型 数据 库 中 抽取 这 些 信息 。 对 决策 支持 数据 库 及 其 应 用 的 进一步 讨论 见 第 22 章 。 

2. 实体 与 联系 

现在 我 们 稍微 仔细 地 分 析 一 个 制造 企业 (名 为 “KnowWare 公司 ”) 的 例子 。 这 种 企业 主要 
关心 以 下 信息 : 目前 已 有 的 工程 ， 在 这 些 工程 中 所 使 用 的 零件 ; 提供 零件 的 供应 商 ; 储存 零件 的 
仓库 ; 在 这 些 工 程 中 工作 的 雇员 ， 等 等 。 工 程 、 零 件 、 供 应 商 等 构成 了 基本 的 实体 ，KnowWare 
公司 需要 记录 这 些 信息 〈 在 数据 库 中 ， 实 体 一 词 通常 指数 据 库 中 表示 的 任何 可 区 分 的 事物 ) 。 如 
图 1-6 所 示 。 





图 1-6 KnowWare 公司 的 实体 /联系 (E/R) 


除了 基本 实体 本 身 〈 例 子 中 的 供应 商 、 零 件 等 ) ， 还 有 连接 这 些 基 本 实体 的 联系 。 这 些 联系 
在 图 1-6 中 通过 菱形 和 连 线 表示 。 例 如 ， 在 供应 商 和 零件 之 间 有 一 个 联系 “SP”: 每 个 供应 商 供 
应 某 些 零件 ; 反 过 来 ， 每 个 零件 都 由 某 些 供应 商 提供 (更 准确 地 说 ， 每 个 供应 商 供应 某 些 种 类 
的 零件 ， 每 种 零件 都 由 某 些 供应 商 提供 ) 。 类 似 地 ， 和 零件 在 工程 中 被 使 用 ; 反 过 来 ， 工 程 要 使 用 
零件 (联系 PJ); 零件 被 存放 在 仓库 中 ， 并且 仓 库 中 存放 着 零件 (联系 WP) ， 如 此 等 等 。 注 意 
这 些 联系 都 是 双向 的 ， 也 就 是 说 ， 每 个 方向 都 可 调换 。 例 如 ， 在 供应 商 和 零件 之 间 的 联系 SP 可 
用 来 回答 下 面 两 个 问题 : 

= 指定 一 个 供应 商 ， 获 得 由 该 供应 商 提 供 的 零件 。 

se 指定 一 种 零件 ， 效 得 供应 这 种 零件 的 供应 商 。 

重要 的 是 这 一 联系 〈 当然 ， 以 及 图 中 表示 的 其 他 所 有 的 联系 ) 和 基本 实体 一 样 作为 数据 的 
一 部 分 ， 它 们 和 基本 实体 一 样 都 要 在 数据 库 中 表示 ”。 

注意 : 上 面 已 经 说 明 图 1-6 是 一 个 实体 /联系 转 (E/R 图 ) 的 例子 。 第 14 章 将 详细 讨论 这 种 图 。 

图 1-6 还 说 明了 以 下 的 几 点 重要 内 容 : 

1) 尽管 该 图 中 的 大 部 分 联系 是 涉及 两 个 实体 类 型 的 ， 也 就 是 二 元 联系 ， 但 是 这 并 不 意味 着 
所 有 的 联系 必须 是 二 元 的 。 例 子 中 联系 (“SPJ”) 就 涉及 三 个 实体 类 型 (供应 商 、 零 件 和 工 





日 ”在 关系 数据 库 中 ( 见 1.6 节 ) ， 基 本 的 实体 和 连接 它们 之 间 的 联系 都 是 用 关系 的 方式 表示 的 。 换 言 之 ， 它 们 都 是 
用 图 1-1 中 展示 的 表 的 形式 表示 的 。 需 要 特别 注意 的 是 ， 这 里 所 说 的 “联系 ”和 关系 数据 库 中 提 及 的 “关系 ” 
并 不 是 同一 个 意思 。 
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程 ) ， 它 是 一 个 三 元 联系 。 这 个 三 元 联系 表示 某 些 供应 商 为 某 些 工 程 供应 某 些 零件 。 注 意 ， 这 个 
三 元 联系 〈“ 供 应 商 给 工程 提供 零件 ") 和 下 面 三 个 二 元 联系 的 联合 是 不 同 的 ， 即 “供应 商 供应 
零件 ”、“ 零 件 用 于 工程 ”和 “工程 由 供应 商 供应 ”。 例 如 ;语句 

a. 史密斯 (Smith) 给 曼哈顿 (Manhattan) 工程 提供 活动 扳手 。 

所 提供 的 信息 要 多 于 下 面 三 个 语句 : 

b. 史密斯 供应 活动 扳手 。 

c. 活动 扳手 用 于 曼哈顿 工程 。 

d 曼哈顿 工程 由 史密斯 供应 。 

知道 了 b、c 和 d， 我们 不 能 有 效 地 推断 出 a。 更 精确 地 说 ， 如 果 已 知 b、c 和 d， 我 们 就 可 以 
推断 出 史密斯 给 某 项 工程 (如 工程 卫 ) 供应 活动 扳手 ， 某 个 供应 商 ( 如 供应 商 Sx) 供应 活动 扳 
手 给 曼哈顿 工程 ， 史 密斯 给 曼哈顿 工程 提供 某 种 零件 (如 零件 Py) 。 但 是 我 们 不 能 推出 Sx 是 史 
密斯 ， 或 者 Py 是 活动 扳手 ,或 者 了 z 是 曼哈顿 工程 。 这 样 的 错误 推论 有 时 被 称 作 连接 陷阱 。 

2) 图 中 还 显示 了 只 含 一 个 实体 (零件 ) 类 型 的 联系 (PP) 。 这 一 联系 指出 某 种 零件 把 其 他 
零件 作为 直接 的 组 成 部 件 ( 也 称 作 材 料 账单 联系 ) 。 例 如 ， 螺 丝 钉 是 贸 链 的 一 个 组 成 部 分 ， 而 镁 
链 也 被 看 作 零 件 ， 或 许 也 是 某 个 更 高 层 零 件 (如 盖子 ) 的 组 成 部 分 。 注 意 ， 这 个 联系 仍然 是 二 
元 的 ， 只 是 它 所 连接 的 两 个 实体 恰好 是 同一 类 型 或 同一 个 实体 。 

3) 通常 ， 一 组 指定 的 实体 类 型 可 能 由 一 些 不 同 的 联系 连接 起 来 。 存 图 1-6 的 例子 中 ， 涉 及 
工程 和 雇员 的 不 同 的 联系 有 两 个 : 一 个 (EJ) 表示 雇员 被 分 配 到 工程 中 这 一 事实 ; 另 一 个 
(MJ) 表示 雇员 管理 工程 这 一 事实 。 

现在 来 分 析 把 联系 本 身 看 作 一 个 实体 的 情况 。 若 从 实体 的 定义 (任何 具有 有 用 信息 的 对 象 ) 
来 看 ， 联 系 也 符合 这 一 定义 。 例 如 ,“ 零 件 P4 储存 在 仓库 W8” 是 一 个 实体 ， 我 们 可 以 记录 有 关 
信息 〈 例 如 ， 相 应 的 数量 ) 。 而 且 ， 对 于 实体 和 联系 不 加 以 不 必要 的 区 分 会 有 很 多 好 处 (其 讨论 
超出 本 章 的 范围 ) 。 因 此 ， 本 书 通常 只 把 联系 当 作 一 种 特殊 的 实体 。 

3. 属性 

如 前 所 述 ， 实 体 是 具有 有 用 信息 的 对 象 。 实 体 (包括 联系 ) 具有 属性 ， 这 些 属 性 记录 实体 
的 相应 信息 。 例 如 ， 供 应 商 有 地 址 ; 零件 有 重量 ; 工程 有 优先 级 ; 任务 有 开工 期 ;如 此 等 等 。 这 
样 的 属性 必须 在 数据 库 中 表示 。 例 如 ，SQL 数据 库 可 能 包含 表 S， 表 示 供 应 商 ， 表 中 有 一 列 
CITY 表 示 供 应 商 的 地 址 。 

通常 ， 属 性 可 以 简单 ， 也 可 以 很 复杂 。 例 如 , “供应 商 地 址 ”这 一 属性 可 以 设 定 得 非常 简 
单 ， 仅 表示 城市 名 ， 在 数据 库 中 只 用 一 个 简单 的 字符 串 表 示 即 可 。 相 反 ， 数 据 仓库 中 可 能 会 包含 
一 个 属性 “建筑 平面 图 ”， 这 个 属性 就 会 很 复杂 ， 可 能 包括 整个 建筑 图 和 相应 的 描述 文字 。 换 名 
话说 ， 如 在 11 节 中 所 述 ，SQL 表 列 中 可 以 包含 任意 复杂 的 数据 类 型 ， 并 且 第 5、6 章 和 第 26、 
27 章 会 再 度 介绍 这 一 主题 。 在 此 之 前 ， 仍 假定 属性 都 是 简单 类 型 ， 而 且 可 以 用 简单 的 数据 类 型 
来 表示 。 这 些 简 单 的 数据 类 型 包括 数字 、 字 符 串 、 日 期 和 时 间 等 。 

4. 数据 和 数据 模型 

对 数据 和 数据 库存 在 另外 一 种 重要 的 认识 方式 。“ 数 据 ” 一 词 来 自 拉 丁 文 “ 给 ， 供 给 ”。 这 
样 ， 数 据 就 是 指定 的 事实 ， 从 中 可 以 推出 另外 的 事实 。( 从 指定 的 事实 中 推出 另外 的 事实 恰恰 是 
DBMS 响应 用 户 要 求 时 所 做 的 处 理 。) 一 个 “指定 的 事实 ”要 符合 逻辑 学 家 所 说 的 真 命题 ， 例 
如 ， 陈 述 句 “供应 商 S1 住 在 伦敦 ”就 是 这 样 的 真 命题 。( 在 逻辑 学 中 ,命题 只 可 能 是 正确 的 或 
者 错误 的 ， 不 会 含混 不 清 。 例 如 ，“William Shakespeare 著 有 《傲慢 与 偏见 》 ”就 是 一 个 错误 的 命 
题 。) 因此 ， 数 据 库 实际 上 就 是 一 些 真 命题 的 集合 。 

现在 ，SQL 产品 已 经 在 市 场 中 占有 主导 地 位 。 其 原因 之 一 是 ，SQL 产品 是 基于 一 种 称 为 关 





”术语 “语句 ”在 数据 库 中 有 两 种 截然 不 同 的 意思 : 在 这 里 它 表 示 “ 对 事实 的 论断 "， 或 者 是 逻辑 学 家 所 说 的 
“命题 ”( 见 稍 后 的 “数据 和 数据 模型 ”小 节 ) ; 它 也 可 以 用 作 “ 命 令 ” 的 同义词 ， 例 如 在 短语 “SQL 语句 ”中 
所 表示 的 意思 。 
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系数 据 模型 的 形式 化 理论 的 ， 这 一 理论 直接 支持 对 数据 和 数据 库 的 解释 ， 特 别 是 在 关系 模型 中 : 

1) 数据 通过 表 中 的 行 来 表示 ”， 并 且 这 些 行 可 以 被 直接 解释 为 真 命题 。 例 如 ， 在 图 1-1 中 ， 
BIN# 72 这 一 行 可 以 被 解释 为 如 下 真 命题 : 

“Bin 号 码 为 72 的 行 包 含 两 瓶 1999 年 的 Rafanelli Zinfandel 酒 ， 这 些 酒 到 2007 年 才 可 饮用 。” 

2) 所 提供 的 操作 符 可 以 针对 表 的 行进 行 ， 这 些 操作 符 直 接 支持 从 指定 的 命题 推出 另外 的 真 
命题 的 处 理 。 举 个 简单 的 例子 ， 关 系 投影 操作 符 〈 见 1.6 节 ) 可 以 从 前 面 列 出 的 真 命题 推出 下 
列 的 真 命题 : 

“一 些 Zinfandel 酒 到 2007 年 才 可 饮用 。” 

(更 精确 地 说 ,“ 在 某 个 bin 中 的 某 些 Zinfandel 酒 ， 是 由 某 厂商 于 某 年 生产 的 ， 到 2007 年 才 
可 饮用 。”) 

关系 模型 不 是 唯一 的 数据 模型 ， 还 存在 其 他 模型 ( 见 1.6 节 )。 这 类 模型 与 关系 模型 截然 不 
同 ， 一 般 不 具有 规范 的 形式 逻辑 基础 。 通 常 的 数据 模型 是 什么 ? 遵照 参考 文献 [1.1] ， 我 们 可 
以 给 出 如 下 定义 : 

se 数据 模型 是 对 对 象 、 操 作 等 的 一 个 抽象 的 、 自 包含 的 逻辑 定义 ,这些 定义 合 起 来 构成 了 一 - 

个 面 对 用 户 的 抽象 机 。 其 中 对 象 可 以 用 来 建 模 数据 结构 。 操 作 符 用 于 建 模 一 些 行为 。 

这 样 我 们 可 以 得 到 一 个 很 有 用 (而 且 很 重要 ) 的 区 分 模型 及 其 实现 (implementation) 的 定义 : 
ms 对 指定 的 数据 模型 的 实现 是 指 在 真实 机 器 上 的 物理 实现 ， 一 个 真实 机 器 是 抽象 机 的 组 成 部 
分 ， 它 们 一 起 构成 模型 。 

简 而 言 之 ， 模 型 是 用 户 必 须知 道 的 ; 实现 是 用 户 不 需要 知道 的 。 

正如 前 文 所 述 ， 模 型 与 实现 之 问 的 区 别 就 如 同 典 型 的 逻辑 与 物理 之 间 的 区 分 一 样 。 但 是 ， 今 
天 的 许多 数据 库 系 统 (甚至 一 些 关 系 系统 ) 并 没有 分 清 这 些 区 别 。 确 实 ， 目 前 尚 缺乏 对 这 一 问 
题 的 认识 。 由 此 造成 了 在 数据 库 原理 〈 即 数据 库 系 统 应 当 怎 样 ) 和 数据 库 实 践 〈 即 数据 库 系 统 
实际 如 何 ) 之 间 经 常 存在 鸿沟 。 本 书 中 主要 介绍 原理 ， 因 此 有 必要 提醒 读者 当 你 使 用 商业 产品 
时 ， 会 经 常 遇 到 一 些 与 原理 有 差异 的 情况 。 

在 结束 本 节 之 际 ， 还 应 该 提 到 的 是 ， 实 际 上 数据 模型 这 个 词 在 字面 上 就 有 两 个 十 分 不 同 的 含 
义 。 一 个 是 上 面 提 到 的 ; 另 一 个 是 指 作为 某 特定 企业 〈 例 如 本 节 前 面 提 到 的 KnowWare 公司 ) 
的 持久 数据 模型 。 两 者 之 间 的 区 别 如 下 : 

am 第 一 种 含义 下 的 数据 模型 就 像 编程 语言 ， 虽 然 有 点 抽象 ， 可 用 来 解决 各 种 特定 的 问题 ， 但 

是 ， 它 本 身 与 特定 的 问题 毫 无 联系 。 

s 第 二 种 含义 下 的 数据 模型 就 像 一 个 用 上 述 语 言 编写 的 特定 程序 。 换 句 话说， 第 二 种 含义 下 
的 数据 模型 利用 第 一 种 含义 下 的 模型 所 提供 的 一 些 功能 ， 用 于 解决 一 些 特定 的 问题 。 因 此 
它 可 以 看 作 是 第 一 种 含义 下 的 数据 模型 的 特定 应 用 。 

本 书 中 ， 在 没有 明确 说 明 的 情况 下 ， 数 据 模型 一 词 都 是 指 第 一 种 含义 。 


1.4 使 用 数据 库 的 优点 


为 什么 要 用 数据 库 呢 ? 它 有 什么 优点 ? 在 某 种 程度 上 ， 这 些 问 题 的 答案 依赖 于 所 谈 的 系统 是 
单 用 户 的 还 是 多 用 户 的 。 更 准确 地 说 ， 多 用 户 系统 有 更 多 的 优点 。 先 看 单 用 户 系 统 : 

仍 以 酒 窒 的 藏 酒量 为 例 (图 1-1) ， 该 图 例 展示 了 单 用 户 系统 的 情况 。 该 数据 库 太 小 也 太 简 
单 ， 不 足以 展示 数据 库 的 优点 。 但 是 设想 一 个 大 酒店 有 类 似 的 数据 库 ， 其 库存 可 能 有 成 千 上 万 找 
酒 ， 而 且 库 存 变化 十 分 频繁 ;或 者 设想 一 家 卖 酒 的 商店 ， 也 有 相当 大 的 库存 ， 并 且 库 存 周转 率 很 
高 。 在 这 种 情况 下 ， 数 据 库 系 统 与 传统 的 、 基 于 纸 的 记录 保存 方式 相 比 ， 其 优点 可 能 就 显 而 易 
见 。 以 下 列举 了 一 些 优点 : 

ms 简洁 : 不 需要 大 量 成 卷 的 文件 。 

a 快捷 : 机 器 对 数据 的 变动 和 更 新 比 手工 快 得 多 。 尤 其 是 ， 对 于 实时 查询 (例如 : Zinfandel 





更 精确 地 说 ， 用 关系 中 的 元 组 来 表示 ( 见 第 3 章 )。 
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和 Pinot Noir 这 两 种 葡萄 酒 ， 哪 种 我 们 储备 得 比较 多 ?) 可 以 快速 地 给 出 答案 。 
a 省 力 : 不 再 手工 保存 大 量 的 文件 ， 机 械 的 任务 可 以 由 机 器 更 好 地 完成 。 
s 方便 : 可 以 随时 得 到 准确 、 最 新 的 信息 。 
am 安全 : 数据 不 容易 丢失 ， 不 会 被 非法 访问 。 
上 述 优点 在 多 用 户 环境 中 能 更 好 地 体现 出 来 。 因 为 通常 多 用 户 环境 下 的 数据 库 要 比 单 用 户 的 
更 大 也 更 复杂 。 然 而 ， 多 用 户 环境 下 还 有 一 个 很 突出 的 优点 ， 即 ， 数 据 库 系 统 保证 了 企业 对 数据 
的 集中 控制 (对 这 一 点 ， 大 家 应 意识 到 ， 它 是 最 有 价值 的 优点 之 一 ) 。 这 种 情况 与 没有 数据 库 系 
统 的 企业 相 比 ， 形 成 了 鲜明 的 对 照 。 在 典型 的 没有 数据 库 系 统 的 企业 中 ， 每 个 应 用 拥有 各 自 的 文 
件 一 一 通常 是 各 自 的 磁带 和 磁盘 一 一 以 致 于 难以 用 任何 系统 的 方法 来 控制 这 些 非常 分 散 的 数据 。 
1. 数据 管理 和 数据 库 管 理 
前 面 简明 扼要 地 描述 了 集中 控制 的 概念 。 这 一 概念 隐 含 着 企业 中 要 有 某 个 可 确认 的 人 对 数据 
有 着 核心 的 权力 。 这 就 是 1.2 节 简 要 提 到 过 的 数据 管理 员 (简称 为 DA)。 假 如 数据 是 一 个 企业 
最 有 价值 的 资产 ， 就 一 定 要 有 人 能 理解 这 些 数据 以 及 企业 对 这 些 数据 的 需求 ， 并 且 此 人 要 处 于 企 
业 的 高 级 管理 层 。 数 据 管理 员 就 是 指 这 样 的 人 。 因 此 ， 数 据 管理 员 的 工作 就 是 首先 决定 什么 数据 
存储 在 数据 库 中 ， 一 旦 存储 了 这 些 数据 ， 就 要 建立 维护 和 处 理 这 些 数据 的 机 制 。 例 如 ， 在 什么 情 
况 下 谁 可 以 执行 什么 操作 就 是 一 种 机 制 一 一 换 句 话说 ， 它 是 数据 安全 机 制 ( 见 下 一 小 节 )。 
注意 ， 数 据 管理 员 是 管理 者 而 不 是 技术 人 员 (尽管 他 或 她 当然 要 在 技术 上 对 数据 库 系统 的 
性 能 有 所 了 解 )。 负 责 执 行 数据 管理 员 的 决策 的 技术 人 员 就 是 数据 库 管 理 员 (简称 为 DBA)。 与 
数据 管理 员 不 同 ，DBA 是 信息 技术 (IT) 方面 的 专业 人 员 。 数 据 库 管理 员 的 工作 是 创建 实际 的 
数据 库 ， 以 及 执行 实施 各 种 决策 所 需 的 技术 控制 。 数 据 库 管理 员 也 负责 确保 系统 正确 执行 操作 ， 
并 且 提 供 各 种 其 他 技术 服务 。 数 据 库 管 理 员 通常 包括 一 些 系统 程序 员 和 其 他 技术 助理 〈 也 就 是 
说 ， 数 据 库 管 理 员 的 功能 实际 上 由 一 组 人 员 来 承担 ， 而 不 是 一 个 人 ) ; 但 是 为 简化 起 见 ， 通 常 假 
定数 据 库 管理 员 只 是 一 个 个 体 。 我 们 将 在 第 2 章 具体 讨论 数据 库 管理 员 的 职能 。 
2. 数据 库 方 法 的 优点 
本 小 节 给 出 一 些 特定 的 优点 ， 这 些 优 点 来 自前 面 所 述 的 集中 控制 。 
se 数据 共享 。 我 们 在 1.2 节 讨 论 了 这 一 点 ， 但 是 为 了 完整 ， 我 们 在 这 里 再 次 提 及 。 共 享 不 仅 
指 现 有 的 应 用 程序 可 以 共享 数据 库 的 数据 ， 而 且 新 的 应 用 程序 也 能 对 这 些 数据 进行 操作 。 
换 句 话说 ， 不 向 数据 库 中 添加 任何 新 数据 也 可 能 满足 新 应 用 程序 的 数据 要 求 。 
sm 减少 宛 余 。 在 非 数据 库 系统 中 ， 每 个 应 用 程序 都 有 自己 的 专用 文件 。 这 种 情况 经 常 导致 在 
存储 数据 上 有 相当 大 的 宛 余 ， 结 果 浪 费 了 存储 空间 。 例 如 ， 一 个 有 关 人 事 的 应 用 程序 和 一 
个 有 关 教 育 的 应 用 程序 可 能 同时 拥有 包含 职员 和 部 门 信息 的 文件 。 但 是 ， 如 1.2 节 所 示 ， 
这 两 个 文件 可 以 集成 起 来 消除 元 余 ， 只 要 数据 管理 员 意识 到 这 两 个 应 用 程序 的 数据 要 
求 一 一 也 就 是 说 ， 企 业 应 有 必要 的 全 局 控制 。 
注意 : 我 们 并 不 是 指 所 有 的 宛 余 数据 都 需要 消除 。 某 些 时 候 ， 维 护 同一 数据 的 多 个 不 同 副本 
是 很 好 的 商业 和 技术 考虑 。 尽 管 如 此 ， 数 据 宛 余 还 是 需要 认真 控制 的 。 因 为 DBMS 需要 考虑 ， 
如 果 存 在 数据 元 余 ， 那么 需要 进行 传播 更 新 ( 见 下 一 点 )。 
和 避免 不 一 致 〈 某 种 程度 上 ) 。 这 是 前 一 点 必然 的 结果 。 假 定 一 种 实际 情况 一 一 雇员 B3 在 
部 门 D8 工作 一 一 数据 库 中 有 两 个 不 同 的 条 目 。 还 假定 DBMS 也 没有 意识 到 元 余 的 存在 
(也 就 是 对 完 余 失控 ) 。 则 必然 会 有 两 个 记录 不 一 致 的 情况 : 即 ， 当 其 中 一 个 更 新 时 ， 另 
一 个 不 变 。 这 种 情况 称 为 数据 库 不 一 致 。 显 然 ， 处 于 不 一 致 状态 的 数据 库 可 能 会 给 用 户 提 
供 错误 的 或 矛盾 的 信息 。 
当然 ， 如 果 指 定 事实 是 由 一 条 记录 表示 的 〈 也 就 是 如 果 排 除了 宛 余 ) ， 那 么 这 样 的 不 一 致 就 
不 会 发 生 。 另 一 种 选择 是 ， 宛 余 没有 排除 但 是 受到 控制 (被 DBMS 得 知 ) ， 那 么 数据 库 管理 系统 
就 可 以 保证 对 用 户 来 说 数据 库 总 是 一 致 的 ，DBMS 确保 两 条 记录 中 的 任何 一 条 改变 会 自动 地 应 用 
到 另 一 条 。 这 一 过 程 即 为 传播 更 新 。 
下 提供 事务 支持 。 事 务 是 一 个 逻辑 工作 单元 ， 它 包括 一 些 数据 库 操作 (特别 是 ， 一 些 更 新 
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操作 ) 。 常 见 的 例子 如 从 账户 4 到 账户 8 转移 一 定 的 现金 。 显 然 ， 这 里 要 求 两 个 更 新 操 
作 : 一 个 是 从 账户 4 提出 现金 ; 另 一 个 是 把 现金 存 人 账户 。 如 果 用 户 已 经 说 明 两 个 更 新 
是 同一 事务 的 一 部 分 ， 那么 系统 要 确保 两 个 操作 要 么 都 做 ， 要么 都 不 做 一 一 即使 在 系统 执 
行 过 程 中 出 现 故障 〈 比 如 因为 断 电 ) 也 应 如 此 。 
注意 : 刚刚 举例 说 明 的 事务 的 原子 性 并 非 事务 的 唯一 优点 ， 但 是 与 其 他 一 些 优 点 不 同 ， 它 其 
至 可 以 应 用 到 单 用 户 的 情况 。 事 务 支持 的 各 种 优点 和 怎样 实现 的 全 面 描述 见 第 15 章 和 第 16 章 。 
m 保持 完整 性 。 完 整 性 的 问题 是 确保 数据 库 中 的 数据 是 正确 的 。 同 样 事实 的 两 条 记录 的 不 一 
致 ， 就 是 缺少 完整 性 的 例子 〈 见 前 面 的 讨论 ) ; 当然 ， 只 要 在 存储 的 数据 中 有 元 余 ， 就 会 
引起 这 样 的 问题 。 即 使 没有 宛 余 ， 数 据 库 也 可 能 包含 错误 的 信息 。 例 如 ， 数 据 库 可 能 显示 
雇员 一 周 工 作 了 400 小 时 而 不 是 40 小 时 ， 或 者 属于 一 个 不 存在 的 部 门 。 数 据 库 的 集中 控 
制 可 以 有 效 地 避免 此 类 问题 ， 做 法 是 通过 支持 数据 管理 员 定 义 一 些 完整 性 约束 ， 由 DBA 
加 以 实施 ， 完 整 性 约束 在 任何 操作 执行 时 都 得 到 有 效 的 检验 。 
值得 指出 的 是 ， 数 据 完整 性 在 数据 库 中 要 比 在 各 自 独立 的 文件 系统 中 重要 得 多 ， 因 为 数据 库 
中 的 数据 是 共享 的 。 要 是 没有 正确 的 控制 ， 有 可 能 一 个 用 户 错误 地 更 新 数据 库 而 生成 的 错误 数 
据 ， 会 现 及 其 他 无 吝 的 用 户 。 目 前 ， 数 据 库 厂商 对 数据 库 的 完整 性 约束 的 支持 还 相当 不 够 ( 尽 
管 最 近 这 一 方面 的 情况 有 所 改善 )。 这 一 事实 很 不 幸 ， 因 为 数据 库 完 整 性 比 你 想象 的 更 为 基本 和 
重要 ( 见 第 9 章 )。 
m 增强 安全 性 。 数 据 库 管 理 员 (在 数据 管理 员 的 正确 指导 下 ) 可 以 确保 访问 数据 库 的 唯一 
方式 是 通过 正确 的 通道 ， 因 此 可 以 定义 安全 性 约束 或 规则 。 当 试图 访问 敏感 数据 时 ， 要 检 
查 这 些 安全 性 约 东 或 规则 。 对 于 数据 库 的 每 条 信息 的 不 同类 型 的 访问 (检索 、 插 人 或 删 
除 等 )， 可 建立 不 同 的 约束 。 注 意 ， 若 没有 这 样 的 约束 ， 数 据 的 安全 性 可 能 比 传统 的 文件 
系统 更 糟糕 ， 也 就 是 说 ， 某 种 意义 上 数据 库 系统 的 集中 人 性 要 求 相称 的 、 好 的 安全 系统 。 
s 平衡 相互 冲突 的 请 求 。 除 了 单个 用 户 的 需求 ， 数 据 库 管 理 员 还 应 了 解 企业 的 全 局 需要 ， 并 
在 数据 管理 员 的 指示 下 建立 系统 的 结构 以 提供 对 企业 最 佳 的 全 局 服务 。 例 如 ， 所 选择 的 数 
据 的 物理 表示 应 尽 可 能 使 重要 的 应 用 能 以 最 快 的 方式 访问 数据 ( 可 能 会 以 降低 其 他 某 些 
应 用 的 访问 速度 为 代价 ) 。 
se 加 强 标准 化 。 数 据 库 管理 员 (在 数据 管理 员 的 指示 下 ) 对 数据 库 集中 控制 ， 可 以 确保 所 
有 表示 数据 的 可 用 标准 都 可 以 顾及 到 。 可 用 标准 可 包括 下 面 的 任意 一 种 或 全 部 : 部 门 标 
准 、 安 装 标准 、 社 团 标 准 、 工 业 标 准 、 国 家 标准 和 国际 标准 。 标 准 化 的 数据 表示 可 以 有 效 
地 支持 数据 交换 或 者 两 个 系统 间 的 数据 移动 〈 随 着 分 布 式 系 统 的 出 现 ， 这 一 点 就 越 来 越 
重要 一 一 见 第 2、21 和 27 章 ) 。 同 时 ， 数 据 命名 和 文档 标准 也 有 效 地 支持 了 数据 共享 和 易 
理解 性 。 
以 上 列 出 的 大 多 数 优点 都 是 比较 显而易见 的 。 但 是 ， 有 一 点 则 不 然 ， 这 就 是 对 数据 的 独立 性 
的 支持 。( 严格 地 说 ， 数 据 独立 性 是 数据 库 系 统 的 客观 目标 ， 而 不 仅仅 是 一 个 必要 的 优点 。) 数 
据 独 立 性 的 概念 十 分 重要 ， 以 下 专 辟 一 节 来 深入 讨论 。 


1.5 数据 独立 性 


要 理解 数据 独立 性 的 含义 ， 最 好 的 方法 是 先 搞 清 什么 是 非 数据 独立 的 。 在 旧 的 系统 中 一 一 邯 
关系 系统 之 前 的 和 数据 库 系 统 之 前 的 系统 一 一 实现 的 应 用 程序 常常 是 数据 依赖 的 。 这 也 就 意味 
着 ， 在 二 级 存储 中 ， 数 据 的 物理 表示 方式 和 有 关 的 存 取 技术 都 是 应 用 设计 中 要 考虑 的 ， 而 且 ， 有 
关 物 理 表示 的 知识 和 访问 技术 直接 体现 在 应 用 程序 的 代码 中 。 例 如 ， 假 定 有 一 个 应 用 程序 使 用 了 
图 1-5 中 的 文件 EMPLOYEE ， 还 假定 文件 在 雇员 姓名 字段 进行 索引 〈 见 在 线 的 附录 D) 。 在 提 的 
系统 中 ， 该 应 用 程序 肯定 知道 存在 索引 ， 也 知道 记录 顺序 是 根据 索引 定 的 ， 应 用 程序 的 内 部 结构 
是 基于 这 些 知识 而 设计 的 。 特 别 地 ， 各 种 数据 访问 的 准确 形式 和 应 用 程序 的 异常 检验 程序 都 很 大 
程度 上 依赖 于 数据 管理 软件 提供 给 应 用 程序 的 接口 细节 。 

我 们 称 这 个 例子 中 的 应 用 程序 是 数据 依赖 的 ， 因 为 一 旦 改变 数据 的 物理 表示 ， 就 会 对 应 用 程 
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序 产生 非常 强 的 影响 。 例 如 ， 用 哈 希 算法 来 对 例子 重建 索引 后 ， 对 应 用 程序 不 作 大 的 修改 是 不 可 
能 的 。 而 且 ， 这 种 情况 下 应 用 程序 修改 的 部 分 恰恰 是 与 数据 管理 软件 密切 联系 的 部 分 。 这 其 中 的 
困难 与 应 用 程序 最 初 所 要 解决 的 问题 毫 不 相关 ， 而 是 由 数据 管理 接口 的 特点 所 引起 的 。 

与 数据 的 依赖 性 相对 ， 数 据 独 立 性 包括 两 个 方面 : 物理 独立 性 和 膛 辑 独立 性 [1.3，1.4]。 
首先 讨论 数据 的 物理 独立 性 。 在 未 进一步 说 明之 前 , “数据 独立 性 ”应 该 理解 为 数据 的 物理 独立 
性 。 注 意 ， 应 该 说 “数据 独立 性 ”这 种 说 法 没有 抓 住 问 题 的 本 质 ; 但 是 ， 由 于 传统 上 一 直 这 么 
用 ， 本 书 中 仍 采 用 该 术语 。 

在 数据 库 系 统 中 ， 应 尽 可 能 避免 应 用 程序 依赖 于 数据 的 情况 。 这 至 少 有 以 下 两 条 原因 : 

1) 不 同 的 应 用 程序 会 从 不 同 角度 来 看 相同 的 数据 。 例 如 ， 假 定 在 企业 建立 统一 的 数据 库 之 
前 有 两 个 应 用 程序 4 和 8B， 每 一 个 都 拥有 包括 客户 余额 的 专 有 文件 。 假 定 4 是 以 十 进 制 存储 的 ， 
而 8 是 以 二 进 制 存储 的 。 这 时 有 可 能 要 消除 元 余 ， 并 把 两 个 文件 统一 起 来 。 条 件 是 DBMS 可 以 
而 且 能 够 执行 以 下 必要 的 转换 ， 即 存储 格式 ( 可 能 是 十 进 制 、 二 进 制 或 者 其 他 的 ) 和 每 个 应 用 
程序 所 采用 的 格式 之 间 的 转换 。 例 如 ， 如 果 决 定 以 十 进 制 存储 数据 ， 每 次 对 8 的 访问 都 要 转换 
成 二 进 制 。 


这 是 个 非常 普通 的 例子 ， 在 数据 库 系统 中 ， 应 用 程序 所 看 到 的 数据 和 物理 存储 的 数据 之 间 可 
示 和 访问 技术 以 适应 变化 的 需要 ， 而 不 必 改 变现 有 
(因此 相关 的 性 能 需求 ) 可 能 改变 ， 系 统 要 添加 新 
价 无 异 于 创建 一 个 新 的 应 用 程序 。 类 似 的 情况 甚至 < 要件 ”存储 六 件 
总 之 ， 提 出 数据 独立 性 主要 是 考虑 到 数据 库 
然 ， 这 意味 着 应 用 程序 不 应 依赖 于 任何 特定 的 物 


能 是 不 同类 型 的 。 本 节 后 面部 分 还 会 考虑 其 他 许多 可 能 的 不 同情 况 。 
2) DBA (或 是 DBMS) 必须 有 权 改 变 物理 表 
的 应 用 程序 。 例 如 ， 新 类 型 的 数据 可 能 加 入 到 数据 存储 数据 库 
库 中 ; 有 可 能 采纳 新 的 标准 ; 应 用 程序 的 优先 级 
的 存储 设备 ， 等 等 。 如 果 应 用 程序 是 数据 依赖 的 ， [+ 
这 些 改变 会 要 求 程序 做 相应 的 改变 ， 这 种 维护 的 代 下 、 其他 在 信 文件 一 
在 今天 都 并 不 少见 ， 如 典型 的 Y2K 问题 ， 这 对 充分 和 全 罕 件 生 作 
利用 稀缺 而 宝贵 的 资源 是 极其 不 利 的 。 零件 号 名 称 颜色 重量 
系统 的 客观 要 求 。 数 据 独立 性 可 以 定义 成 应 用 程 | |， 
序 不 会 因 物理 表示 和 访问 技术 的 改变 而 改变 。 当 | “零件 ”存储 记 
理 表 示 和 访问 技术 。 在 第 2 章 中 ,描述 了 支持 以 上 | P2 | Bot] Greenl17.0| 
基本 要 求 的 数据 库 系 统 的 结构 。 在 此 之 前 ， 我们 零件 号 尝 体 基色 和信 





还 是 先 讨论 一 下 发 生 改 变 的 具体 情况 ， 即 DBA 通 色 各 

常 都 有 哪些 改变 上 的 要 求 ， 进 而 讨论 怎样 使 应 用 

程序 尽量 免 受 这 方面 的 影响 。 图 1-7 存储 字段 、 存 储 记录 和 存储 文件 
首先 给 出 三 个 术语 : 存储 字段 、 存 储 记录 和 

存储 文件 ( 见 图 1-7)。 


se 存储 字段 。 简 言 之 ， 存 储 字 段 就 是 存储 数据 的 最 小 单位 。 数 据 库 对 每 一 种 类 型 的 存储 字段 
都 包含 许多 具体 值 〈 或 实例 ) 。 例 如 ， 包 含 不 同类 型 零件 信息 的 数据 库 可 能 包括 称 为 “ 零 
件 编导 ”的 存储 字段 类 型 ， 那 么 对 每 种 零件 ( 如 螺丝 钉 、 铵 链 、 盖 子 等 ) ， 即 有 一 个 该 存 
储 字段 的 具体 值 。 
注意 ; 实际 中 ， 通 常 不 再 明确 指出 是 类 型 还 是 值 ， 而 是 依据 上 下 文 来 确定 其 含义 。 尽 管 这 有 
可 能 带 来 一 些 混 淆 ， 但 实际 中 是 方便 的 ， 本 书 中 仍 不 时 地 采用 这 种 方式 。( 以 上 说 明 也 同时 适用 
于 存储 记录 一 一 见 下 一 段 要 讨论 的 内 容 。) 
s 存储 记录 是 相关 的 存储 字段 的 集合 。 我 们 仍 区 分 类 型 与 值 。 一 条 存储 记录 的 值 〈 或 实例 ) 
由 一 组 相关 的 存储 字段 的 值 组 成 。 例 如 ， 在 零件 数据 库 中 的 一 条 存储 记录 的 值 可 能 由 下 列 
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存储 字段 的 值 组 成 。 这 些 字段 包括 : 零件 号 、 零 件 名 称 、 零 件 颜色 和 零件 重量 。 而 数据 库 
是 由 “零件 ”存储 记录 类 型 的 许多 值 (每 种 零件 一 个 值 ) 组 成 的 。 

。 存储 文件 是 由 现存 的 一 种 类 型 的 存储 记录 的 值 组 成 的 。 注 意 ， 为 简单 起 见 ， 假 定 任 一 存储 

文件 只 包含 一 种 类 型 的 存储 记录 。 这 种 简化 并 不 影响 后 面 的 论述 。 

现在 ， 在 非 数据 库 系统 中 ,常常 是 应 用 程序 所 处 理 的 任 一 逻辑 记录 都 与 相应 的 存储 记录 相 
同 。 然 而 ,我们 已 经 看 到 ， 在 数据 库 系统 中 这 是 不 必要 的 ， 因 为 DBA 可 能 需要 对 存储 的 数据 表 
示 ( 即 存储 字段、 存储 记录 和 存储 文件 ) 进行 改变 ， 可 是 从 应 用 程序 的 角度 来 看 数据 还 是 不 变 
的 。 例 如 ， 在 EMPLOYEE 文件 中 的 SALARY 字段 可 能 为 了 节省 存储 空间 而 存 成 二 进 制 格式 ， 而 
指定 的 COBOL 应 用 程序 可 能 把 它 作为 字符 串 来 处 理 。 随 后 DBA 可 能 会 由 于 某 种 原因 而 改变 数 
据 的 存储 形式 ， 如 从 二 进 制 改 为 十 进 制 ， 但 对 COBOL 应 用 程序 而 言 ， 仍 以 字符 串 的 形式 对 待 。 

如 前 所 述 ， 像 这 种 在 一 次 访问 中 出 现 某 字段 的 数据 类 型 变化 的 情况 相对 比较 少 。 但 是 ， 一 般 
情况 下 ， 应 用 程序 中 的 数据 和 实际 所 存储 的 数据 之 间 的 差异 会 相当 大 。 为 明确 说 明 这 一 点 ， 我 们 
给 出 下 列 可 能 要 改变 的 各 种 存储 表示 。 在 每 种 情况 下 ， 都 应 该 考虑 DBMS 应 怎么 做 才能 使 应 用 
程序 保持 不 变 ( 即 是 否 可 以 达到 数据 独立 性 ) 。 

数 守 数据 的 表示 。 一 个 数字 字段 可 能 存 成 内 部 算术 形式 ， 或 作为 一 个 字符 串 。 对 每 一 种 方 
式 ，DBA 必须 选择 恰当 的 数 制 ( 例如， 二 进 制 或 十 进 制 ) 、 范 围 (固定 的 或 浮 点 ) 、 方 式 
(实数 或 复数 ) 以 及 精度 小数 的 位 数 ) 。 为 提高 执行 效率 或 符合 某 一 新 标准 或 因 其 他 原 
因 ， 其 中 任 一 方面 都 可 能 需要 改变 。 
字符 数据 的 表示 。 一 个 字符 串 字段 可 能 使 用 了 几 个 不 同 的 编码 字符 集中 的 一 种 ， 如 
ASCII、EBCDIC 或 Unicode。 
数字 数据 的 单位 。 数 字 字 段 的 单位 会 改变 
厘米 。 
数据 编码 。 有 时 以 编码 的 形式 来 表示 物理 存储 的 数据 是 非常 好 的 。 例 如 , “零件 颜色 ” 字 
段 ， 在 应 用 程序 中 看 作 字符 串 〔“ 红 ”、“ 蓝 ”或 “ 绿 ") ， 存 储 时 可 以 存 成 单个 十 进 制 数 
字 ， 可 根据 1 =“ 红 "，2 =“ 蓝 " ， 如 此 等 等 这 样 的 编码 模式 来 解释 。 
数据 具体 化 。 实 际 中 由 应 用 程序 所 看 到 的 逻辑 字段 经 常 与 特定 的 存储 字段 相 联系 (尽管 
它们 会 在 数据 类 型 、 编 码 等 方面 都 不 相同 ) 。 在 这 种 情况 下 ,数据 具体 化 的 处 理 〔 也 就 是 
从 相应 的 存储 字段 的 值 构建 逻辑 字段 的 值 ， 并 提供 给 应 用 程序 ， 可 以 说 是 直截了当 的 。 
但 是 ， 有 时 一 个 刻 辑 字段 可 能 没有 对 应 的 存储 值 ， 它 的 值 可 以 通过 计算 一 些 存储 字段 的 值 
来 具体 化 。 例 如 ， 逻 辑 字段 “总 量 ”的 值 可 以 通过 对 各 个 单个 存储 数量 来 汇总 而 得 到 。 
在 这 种 情况 下 ， 具 体 化 的 过 程 是 间接 的 。 
存储 记录 的 结构 。 两 个 已 有 的 存储 记录 可 以 合成 为 一 个 。 例 如 ， 存 储 记录 [ParE HGTEarE scToa 
和 [Part no-[Part wefghtjaj 以 合成 为 [part no. part color partweight] 的 形式 。 

当 把 新 的 应 用 程序 集成 到 数据 库 系 统 时 会 经 常 发 生 这 种 改变 。 这 也 暗示 应 用 程序 的 逻 
辑 记录 可 能 由 相应 存储 记录 的 恰当 子 集 组 成 一 也 就 是 说 ， 存 储 记 录 中 的 某 些 字段 对 应 用 
程序 来 说 是 不 可 见 的 。 

另 一 种 情况 是 单个 的 存储 记录 被 分 成 两 个 。 将 前 面 的 例子 反 过 来 ， 存储 记录 
[FFTenoJBart color]partvelghtj] 能 被 分 列 leart no.[part weight], 

例如 ， 这 种 分 裂 允 许 较 少 使 用 的 原始 记录 部 分 存储 在 一 个 慢 速 设备 上 。 这 意味 着 给 定 
应 用 程序 的 逻辑 记录 可 由 来 自 几 个 不 同 存储 记录 的 字段 组 成 一 即 ， 可 能 是 某 指定 的 存储 
记录 的 超 集 。 
存储 文件 的 结构 。 一 个 指定 的 存储 文件 可 以 各 种 方式 实现 其 存储 ( 见 在 线 的 附录 D) 。 例 
如 ， 它 可 以 完全 存储 在 单个 的 存储 设备 上 (单个 磁盘 ) ， 或 者 存储 在 几 个 设备 可 能 在 几 
个 不 同 的 设备 类 型 ) 上 ; 可 能 根据 一 些 存储 字段 的 值 按 一 定 物理 顺序 来 存储 ， 或 无 序 存 
储 ; 存储 顺序 可 能 按 某 一 种 或 基 几 种 方式 进行 ， 例 如 ， 通 过 一 个 或 多 个 索引 ， 一 个 或 多 个 
嵌入 的 指针 链 ， 或 者 两 者 兼 有 ; 通过 哈 希 算法 可 能 访问 到 也 可 能 访问 不 到 该 文件 ， 存 储 记 





例如 ， 在 实施 公制 度量 的 处 理 中 从 英寸 转 成 
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录 可 能 物理 上 被 分 块 ， 也 可 能 没有 ; 如 此 等 等 。 但 是 上 述 任何 考虑 都 不 会 以 任何 方式 影响 
应 用 程序 ( 当然 性 能 除外 ) 。 

以 上 所 列 基本 概括 了 可 能 的 存储 数据 形式 的 改变 。 这 意味 着 数据 库 应 该 能 够 增长 而 并 不 削弱 
现存 的 应 用 程序 的 功能 ; 的 确 ， 在 保证 数据 库 增长 的 则 时 而 不 削弱 应 用 程序 的 功能 ， 是 提出 数据 
独立 性 的 重要 原因 之 一 。 例 如 ， 必 须 有 办 法 通过 增加 新 的 存储 字段 来 扩展 现 有 的 存储 记录 ， 如 对 
现存 的 实体 类 型 进一步 追加 信息 (如 “单价 ”字段 可 能 会 加 入 到 “零件 ”的 存储 记录 中 ) 。 这 
样 新 的 字段 对 原 应 用 程序 来 说 应 是 不 可 见 的。 同时 ， 还 可 能 增加 全 新 的 存储 记录 类 型 (这 样 就 
有 新 的 存储 文件 ) ， 而 这 不 会 引起 应 用 程序 的 改变 。 这 样 的 记录 和 文件 通常 代表 新 的 实体 类 型 
(例如 ， 一 个 “供应 商 ” 记 录 类 型 可 以 加 到 “零件 ”数据 库 中 ) 。 而 且 这 些 增加 对 应 用 程序 来 说 
也 应 是 不 可 见 的 。 

至 此 ， 大 家 应 清楚 把 数据 模型 从 其 实现 中 分 离 出 来 的 原因 之 一 就 是 数据 独立 性 的 要 求 ， 就 像 
在 1.3 节 末 尾 所 指出 的 那样 。 某 种 程度 上 ， 不 做 这 种 分 离 ， 就 得 不 到 数据 的 独立 性 。 目 前 ， 不 能 
正确 做 到 这 种 分 离 的 情况 很 严重 ， 尤 其 是 当今 的 SQL 系统 都 做 不 到 这 一 点 ， 这 实在 让 人 诅 丧 。 
注意 : 这 并 不 意味 着 当今 的 SQL 系统 根本 不 支持 数据 的 独立 性 ， 只 是 它们 提供 的 要 远 远 少 于 关 
系 系统 理论 上 要 求 达到 的 ”。 换 句 话 说， 数据 独立 性 不 是 绝对 的 〈 不 同系 统 可 提供 不 同 程度 的 
数据 独立 性 ， 很 少 有 系统 根本 不 提供 ); SQL 系统 提供 的 要 比 其 他 的 系统 多 一 些 ， 但 还 不 是 很 
好 ， 这 在 后 续 章 节 中 将 会 介绍 。 


1.6 关系 系统 及 其 他 数据 库 系 统 


正如 在 1.3 节 末 尾 所 提 到 的 ，SQL 系统 在 DBMS 市 场 上 已 经 占据 了 主导 地 位 ， 其 中 的 重要 
原因 是 这 种 系统 是 建立 在 关系 数据 模型 基础 上 的 。 在 非 正式 的 情况 下 ，SQL 系统 也 被 称 作 “ 关 
系 系统 "””。 在 过 去 30 年 中 ， 大 量 主要 的 数据 库 研 究 是 基于 关系 模型 的 。 实 际 上 ， 不 可 否认， 
1969 ~ 1970 年 间 关 系 模型 的 建立 ， 在 整个 数据 库 领域 的 历史 中 无 疑 是 最 重要 的 事件 。 由 于 这 些 
原因 ， 加 上 关系 模型 有 坚实 的 逻辑 和 数学 基础 ， 因 此 它 成 为 数据 库 原理 的 主要 教学 内 容 ， 本 书 的 
重点 也 主要 针对 关系 系统 。 

那么 究竟 什么 是 关系 系统 呢 ? 很 显然 本 书 在 此 还 不 能 给 出 一 个 完满 的 解答 ， 但 是 可 以 先 给 出 
一 个 大 致 的 定义 ， 之 后 再 给 出 更 详尽 的 答案 。 简 言 之 ， 关 系 系 统 是 指 : 

1) 数据 以 表 (而 且 只 有 表 ) 的 形式 呈现 给 用 户 。 

2) 提供 给 用 户 的 操作 (如 检索 ) 以 表 为 操作 对 象 ， 即 操作 是 从 旧 表 中 生成 新 的 表 。 例 如 ， 
“选择 ” ( restrict) 操作 是 提取 某 指定 的 表 的 行 子 集 ， 而 “投影 ”操作 是 提取 一 个 表 的 某 些 列 的 
子 集 ， 表 的 行 子 集 和 列子 集 本 身 都 可 以 看 作 一 个 表 。 

这 样 的 系统 之 所 以 称 为 “关系 ”的 ， 是 因为 表 的 数学 用 语 为 关系 。 (事实 上 ,， “关系 ”和 
“ 表 ” 这 两 个 词 至 少 在 非 正式 的 情况 可 以 当 作 同义词 ， 见 第 3 章 和 第 6 章 进一步 的 讨论 。) 这 里 
应 指明 在 1. 3 节 中 对 以 下 原因 的 解释 是 不 成 立 的 ， 即 因为 实体 联系 图 中 联系 的 数学 用 语 为 关系 ; 
实际 上 ， 在 关系 系统 与 这 些 图 之 间 也 没有 多 少 直接 的 联系 。 

这 里 重复 一 下 ,我们 会 在 后 面 更 详细 地 阐述 这 些 定义 ,但 这 里 只 是 开 个 头 。 图 1-8 提供 了 一 
个 例子 。 图 中 a 部 分 的 数据 包含 一 个 名 为 CELLAR 的 表 (实际 上 ， 它 是 图 1-1 中 的 CELLAR 表 
的 一 个 简化 版 本 ， 规 模 减 小 是 为 了 便于 管理 ) 。 图 中 b 部 分 是 两 个 查找 的 例子 ， 一 个 包含 选择 或 
行 子 集 操作 ， 另 一 个 包含 投影 或 列子 集 操作 。 注 意 : 两 个 查找 都 是 用 SQL 来 实现 的 。 

现在 我 们 可 以 这 样 区 分 关系 系统 和 非 关系 系统 。 如 前 所 述 ， 关 系 系 统 的 用 户 把 数据 看 作 表 ， 
而 且 只 能 是 表 (正如 我 们 已 经 提 到 的 )。 在 非 关系 系统 中 ， 用 户 则 把 数据 看 作 其 他 的 数据 结构 
(代替 或 者 扩展 关系 系统 中 的 表 结 构 ) 。 访 问 这 些 结构 需要 相应 的 操作 。 例 如 ， 像 IBM 的 IMS 这 
样 的 层次 系统 ， 展 现 给 用 户 的 数据 是 树 结构 (层次 ) 的 集合 的 形式 ， 提 供用 于 访问 这 些 结构 的 





在 附录 A 中 提供 了 很 典型 的 例子 说 明 关 系 系统 在 这 方面 的 能 力 。 
合 ”尽管 正如 我 们 将 要 看 到 的 ，SQL 因 在 某 些 方面 背离 关系 模型 而 声名 狼藉 。 
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操作 符 包括 遍历 指针 一 一 即 表示 整个 层次 路 径 的 指针 操作 符 。 与 此 对 比 ， 如 本 章 已 展示 的 例子 所 
示 ， 这 是 与 关系 系统 相 区 分 的 重要 特征 ， 关 系 系统 没有 这 样 的 指针 。( 至 少 从 用 户 的 角度 看 是 没 
有 指针 的 ， 即 在 模型 这 个 层面 上 没有 指针 ， 当 然 有 可 能 在 物理 实现 上 使 用 了 指针 。) 








BOTTLES 


zinfandel 1999 2 
Fumé Blanc | 2000 2 
Pinot Noir | 1997 3 
Zinfandel 1998 9 


b. 操作 符 〈 举例 ) : 


SELECT WINE, YEAR, BOTTLES Zinfandel 1999 2 
FROM CELLAR Fumé Blanc | 2000 2 
WHERE YEAR > 1998 ，; 


2 投影 : 纺 果 : 


SELECT WINE, BOTTLES ee 

FROM CELLAR ; Fumé Blanc 
Pinot Noir 
2infandel 


图 1-8 关系 系统 中 的 数据 结构 和 操作 符 (举例 ) 


进一步 说 ， 根 据 数据 结构 和 提供 给 用 户 的 操作 符 ， 数 据 库 系统 实际 上 能 够 很 方便 地 加 以 分 类 。 
根据 这 一 点 ， 以 往 的 系统 ( 非 关系 的 ) 可 分 为 三 大 类 ， 即 倒 排 表 、 层 次 和 网 状 系统 8 。( 注意 : 这 
里 的 网 状 (network) 与 下 一 章 在 数据 通信 部 分 提 到 的 网 络 (network) 豪 无 关系 。) 本 书 中 我 们 不 
详细 讨论 这 些 系统 ， 因 为 至 少 从 技术 角度 上 看 它们 已 经 过 时 了 。 如 果 有 兴趣 ， 可 参见 文献 [1.5]。 

注意 : 我 们 提 到 的 网 状 系 统 又 可 称 为 CODASYL 系统 或 DBTG 系统 ， 这 是 因为 其 核心 是 由 
数据 系统 语言 协会 (CODASYL) 下 属 的 数据 库 任 务 组 (DBTG) 所 提出 的 。 可 能 这 一 系统 的 典 
型 代表 是 Computer Associates International 公司 的 IDMS。 与 层次 系统 一 样 〈 但 与 关系 系统 不 同 ) ， 
这 些 系 统 都 把 指针 提供 给 用 户 。 

第 一 代 关 系 产 品 出 现 于 20 世纪 70 年 代 末 80 年 代 初 。 在 编写 本 书 之 际 ， 绝 大 多 数 数据 库 系 
统 都 是 关系 系统 (至 少 支持 SQL) ， 它 们 可 以 在 各 种 硬件 和 软件 平台 上 运行 。 最 主要 的 产品 (以 
字母 顺序 排列 ) 包括 : IBM 公司 的 DB2; Computer Associates International 公司 的 Ingres Il; In- 
formix Software 公司 2 的 Informix Dynamic Server; 微软 公司 的 Microsoft SQL Server;，Oracle 公司 
的 Oracle 9i; Sybase 公司 的 Sybase Adaptive Server。 注 意 ; 本 书 中 以 后 谈 及 这 些 产品 时 ， 我 们 分 
别 只 提 及 缩写 名 字 DB2 、Ingres、Informix 、SQL Server、Oracle 和 Sybase。 

最 近 ， 一 些 对 象 和 对 象 /关系 型 数据 库 产 品 开始 推 向 市 场 。 对 象 数据 库 系统 出 现在 20 世纪 80 
年 代 末 90 年 代 初 ， 对 象 / 关 系数 据 库 则 出 现 于 20 世纪 90 年 代 末 。 对 象 关系 系统 表示 (对 大 部 分 ) 
某 些 初始 的 SQL 产品 向 上 兼容 的 扩展 ， 如 DB2 和 Informix; 对 象 系统 (面向 对 象 ) 表示 试图 做 一 
些 彻底 的 改变 ， 如 GemStone Systems 公司 的 GemStone 和 Versant Object Technology 公司 的 Versant 
ODBMS。 我 们 将 会 在 本 书 第 六 部 分 讨论 这 些 新 的 系统 。( 需要 指出 ， 这 段 中 对 象 这 个 词 有 其 特定 的 
含义 ， 这 我 们 也 将 在 第 六 部 分 解释 。 在 这 之 前 ， 我 们 只 是 用 它 表 示 通 用 情况 下 的 意义 。) 

除 以 上 谈 到 的 数据 模型 方法 以 外 ， 近 几 年 的 研究 还 提出 了 一 些 新 的 方法 ， 包 括 多 维 的 方法 和 











”和 关系 模型 类 似 ， 在 本 书 的 前 几 版 中 使 用 倒 排 表 、 层 次 和 网 状 模型 的 说 法 (许多 文献 仍然 这 么 使 用 ) 。 这 里 实际 上 
有 一 点 令 人 误解 ， 因 为 和 关系 模型 不 同 ， 倒 排 表 、 层 次 和 网 状 模型 是 在 相应 的 商业 产品 出 现 之 后 才 随 之 提出 来 的 。 
可 以 参见 文献 [1.1] 了 解 更 多 。 

”2001 年 Informix Software 公司 的 DBMS 子 公 司 被 BM 收购 。 
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基于 逻辑 的 〈 也 称 演 绎 或 专家 ) 方法 。 我 们 将 在 第 22 章 讨论 多 维系 统 ， 在 第 24 章 讨论 基于 逻辑 
的 系统 。 随 着 万 维 网 的 急速 发 展 和 XML 的 广泛 应 用 ， 出 现 了 半 结 构 化 方法 。 我 们 将 在 第 27 章 讨 


1.7 小 结 


现在 概括 本 章 所 讨论 的 主要 问题 。 首 先 ， 数据库 系统 可 以 被 看 作 计 算 机 化 的 存储 记录 的 系 
统 。 该 系统 包括 数据 (存储 在 数据 库 中 ) 、 硬 件 、 软 件 (尤其 是 数据 库 管 理 系统 或 DBMS) 和 最 
重要 的 用 户 。 用 户 又 可 分 成 应 用 程序 员 、 最 终 用 户 和 数据 库 管 理 员 (DBA) 。DBA 负责 根据 数据 
管理 员 制定 的 策略 来 管理 数据 库 和 数据 库 系统 。 

数据 库 是 集成 和 共享 的 ; 它们 用 于 存储 持久 数据 。 这 些 数据 通常 可 以 表示 为 实体 及 实体 间 的 
联系 一 一 尽管 实际 上 联系 只 不 过 是 一 种 特殊 实体 。 我 们 简要 介绍 了 实体 /联系 图 。 

数据 库 系统 有 许多 优点 ， 其 中 最 重要 的 一 点 就 是 (物理 的 ) 数据 独立 性 。 数 据 独立 性 的 定 
义 是 指 能 使 应 用 程序 免 于 随 着 数据 物理 存储 和 访问 方式 的 变化 而 变化 。 另 外 ， 数 据 独立 性 要 求 数 
据 模型 和 它 的 实现 分 开 。( 提醒 大 家 关注 数据 模型 一 词 ， 它 可 能 有 两 种 截然 不 同 的 意义 。) 

数据 库 系 统 通常 支持 事务 ， 即 工作 的 逻辑 单位 。 事 务 的 优点 之 一 是 ， 即 便 在 事务 执行 中 系统 
出 现 故障 ， 也 能 确保 事务 的 原子 性 ( 即 要 么 全 做 ， 要么 全 不 做 )。 

最 后 ， 数 据 库 系统 以 许多 不 同 的 方法 为 基础 。 特 别 地 ， 关 系 系统 以 称 为 关系 模型 的 形式 化 理 
论 为 基础 。 在 关系 模型 中 ， 数 据 表示 为 表 中 的 行 (解释 为 真 命题 ) ， 所 提供 的 操作 直接 支持 从 已 
指定 的 真 命题 推断 出 其 他 真 命题 的 处 理 过 程 。 从 经 济 的 和 理论 的 前 景 来 看 ， 关 系 系 统 很 显然 是 最 
重要 的 (这 种 情况 在 可 预见 的 将 来 是 不 会 改变 的 ) 。 我 们 已 经 给 出 了 几 个 SQL 的 例子 (特别 是 ， 
例如 SQL 的 SELECT 、INSERT、UPDATE 和 DELETE 语句 ) ，SQL 是 关系 系统 的 标准 语言 。 
本 书 将 着 重 于 对 关系 系统 的 讨论 ， 对 SQL 则 论述 不 多 。 


习题 

1.1 定义 下 列 术 语 : 
二 元 联系 命令 驱动 界面 并 发 访问 数据 管理 
数据 库 数据 库 系 统 数据 独立 性 数据 库 管 理 员 
数据 库 管 理 系统 实体 实体 /联系 图 表格 驱动 界面 
集成 完整 性 菜单 驱动 界面 多 用 户 系统 
联机 应 用 程序 持久 数据 属性 查询 语言 
元 余 联系 安全 性 共享 
存储 字段 存储 文件 存储 记录 事务 


1.2 使 用 数据 库 系统 的 优点 是 什么 ? 缺点 呢 ? 

1.3 什么 是 关系 系统 ? 区 分 关系 和 非 关 系 系统 。 

1.4 什么 是 数据 模型 ? 解释 数据 模型 与 其 实现 的 差别 。 为 什么 这 个 差别 很 重要 ? 
1.5 给 出 下 列 对 图 1-1 中 酒 窖 数据 库 的 SQL 检索 操作 的 结果 : 


a. SELECT WINE, PRODUCER 
FROM CELLAR 
WHERE BIN# = 72 ; 


. SELECT WINE, PRODUCER 
FROM CELLAR 
WHERE YEAR > 2000 ，; 


. SELECT BIN#, WINE, YEAR 
FROM 
WHERE READY < 2003 ，; 


. SELECT WINE, BIN#, YEAR 
FROM CELLAR 
WHERE PRODUCER = 'Robt. Mondavi' 
AND BOTTLES > 6，} 


1.6 从 习题 1.5 的 每 个 答案 中 选 出 一 行 ， 用 自己 的 话 解释 成 真 命题 。 


= 


© 


[= 





1.7 给 


a. 
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出 下 列 对 图 1-1 中 酒 容 数 据 库 的 SQL 更 新 操作 的 结果 : 


INSERT 
INTO CELLAR ( BIN#, WINE, PRODUCER, YEAR, BOTTLES, READY ) 
VALUES ( 80, ‘Syrah', 'Meridian', 1998, 12, 2003 ) ，; 


. DELETE 


FROM CELLAR 
WHERE READY > 2004 ; 


. UPDATE CELLAR 


SET BOTTLES = 5 
WHERE BIN# = 50 ;，; 


. UPDATE CELLAR 


SET BOTTLES = BOTTLES + 2 
WHERE BIN# = 50 ; 


1.8 写 出 对 酒 容 数 据 库 执行 下 列 操作 的 SQL 语句 : 
(a) 找 出 所 有 Geyser Peak 酒 的 bin 号 、 酒 的 名 字 和 瓶 数 。 
(b) 找 出 存储 量 超过 5 瓶 的 酒 的 bin 号 和 酒 的 名 字 。 
(c) 找 出 所 有 红酒 的 bin 号 。 
(d) 对 bin 号 为 30 的 加 3 瓶 酒 。 
(e) 从 库存 中 删除 所 有 Chardonnay 。 
(f) 加 入 一 条 新 记录 : 12 瓶 Gary Farrell Merlot: bin 号 55，2000 年 生产 ，2005 年 出 厂 。 

1.9 假定 你 有 一 些 古 典 音乐 的 CD 和 /或 Midi 和 /或 LP 和 /或 磁带 ， 并 且 想 要 建立 一 个 数据 库 来 查找 某 作 
曲 家 (如 Sibelius) ， 或 某 指挥 家 (如 Simon Rattle) ， 或 某 独 卓 家 (如 Arthur Grumiaux)， 或 某 作 品 
(如 贝多 芬 的 第 5 交响 曲 )， 或 某 管弦 乐队 (如 NYPO)， 或 某 种 作品 (如 violin concerto) ， 或 室内 乐 
乐队 〈 如 Kronos Quartet) 的 有 关 资 料 。 为 此 数据 库 画 出 一 个 像 图 1-6 那样 的 实体 /联系 图 。 
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第 2 章 数据 库 系统 体系 结构 


2.1 引言 


本 章 介 绍 数据 库 系统 的 体系 结构 。 介 绍 体系 结构 的 目的 是 给 后 续 章 节 建 立 一 个 框架 结构 。 这 
个 框架 结构 用 于 描述 一 般 数 据 库 的 概念 ， 并 解释 特定 数据 库 的 结构 一 一 但 不 能 说 每 个 数据 库 系统 
都 和 这 个 框架 结构 完全 相 匹 配 ， 或 者 说 这 一 特定 的 体系 结构 提供 了 唯一 可 能 的 框架 结构 。 特 别 
是 ,“ 小 ”系统 ( 见 第 1 章 ) 将 难以 支持 体系 结构 的 各 个 方面 。 不 过 ， 此 体系 结构 基本 上 能 很 好 
地 适应 大 多 数 系统 ; 而 且 ， 它 基本 上 和 ANSLLSPARC DBMS 研究 组 提出 的 数据 库 管理 系统 的 体 
系 结构 ( 称 作 ANSL/SPARC 体系 结构 一 一 参见 文献 [2.1] 和 [2.2]) 是 相同 的 。 但 是 ， 我 们 
不 会 在 每 个 细节 部 分 都 采用 ANSLLSPARC 的 术语 。 

注意 : 本 章 和 第 1 章 类 似 ， 本 章 内 容 有 助 于 全 面 认 识 现代 数据 库 系 统 的 结构 和 功能 ， 但 本 章 
的 内 容 还 是 有 些 抽象 和 枯燥 。 因 此 和 第 1 章 一 样 ， 读 者 可 以 先 对 这 些 内 容 “ 大 致 浏览 ”一 下 ， 
待 以 后 遇 到 直接 相关 的 内 容 时 再 回 过 来 看 这 部 分 内 容 。 


2.2 三 级 体系 结构 


ANSL SPARC 体系 结构 分 为 三 层 ， 即 内 部 层 (Internal Level) 、 外 部 层 (Extermal Level) 和 
概念 层 (Conceptual Level) ( 见 图 2-1) ， 当 然 也 可 能 有 其 他 的 名 称 。 广 义 地 讲 : 

a 内 部 层 (存储 层 ) 是 最 接近 物理 存储 的 一 一 也 就 是 ， 数 据 的 物理 存储 方式 ; 

ea 外 部 层 (用 户 逻 辑 层 ) 是 最 接近 用 户 的 一 一 也 就 是 ， 单 个 用 户 所 看 到 的 数据 视图 ; 

a 概念 层 (公共 逻辑 层 ， 或 有 时 称 为 逻辑 层 ) 是 介 于 前 两 者 之 间 的 间接 的 层次 。 

注意 ; 外 部 层 是 单个 用 户 的 数据 视图 ， 而 | 部 层 
概念 层 是 一 个 部 门 或 企业 的 数据 视图 。 正 如 第 (单个 用 户 视图 ) 
1 章 提 到 的 ， 大 多 数 用 户 只 对 整个 数据 库 的 某 
一 部 分 感 兴 趣 。 换 句 话说 ,“ 外 部 视图 ” ( 即 外 






概念 层 
部 层 ) 会 有 许 许多 多 ， 每 一 个 都 或 多 或 少 地 抽 (公共 用 户 视图 ) 
象 表示 整个 数据 库 的 某 一 部 分 ， 而 “概念 视 
图 ”( 概 念 层 ) 只 有 一 个 ， 它 包含 对 现实 世界 内 部 层 
数据 库 的 抽象 表示 。 同 样 ，“ 内 部 视图 ”( 即 内 (存储 视图 ) 
部 层 ) 也 只 有 一 个 ， 表 示 数 据 库 的 物理 存储 。 图 2-1 三 级 体系 结构 


注意 : 外 部 层 和 概念 层 都 是 模型 层面 上 的 ， 而 
内 部 层 是 实现 层面 上 的 。 换 言 之 ， 外 部 层 和 概念 层 是 面向 用 户 构造 的 ， 比 如 记录 和 字段 。 而 内 部 
层 是 面向 机 器 构造 的 ， 比 如 位 和 字 节 。 

举例 说 明 如 下 。 图 2-2 给 出 了 一 个 有 关 人 事 数据 库 的 概念 视图 ， 以 及 对 应 的 内 部 视图 和 两 个 
对 应 的 外 部 视图 (一 个 为 PL/I 用户, 一 个 为 COBOL 用 户 ”) 。 当 然 ， 例 子 完全 是 假设 的 一 一 与 
任何 实际 系统 无 关 一 一 且 忽 略 了 许多 无 关 的 细节 。 说 明 如 下 : 

1) 在 概念 屋 中 ， 数 据 库 包含 了 EMPLOYEE (雇员 ) 实体 类 型 的 信息 。 每 个 雇员 都 有 EM- 
PLOYEE_NUMBER (6 个 字符 ) 、DEPARTMENT_NUMBER (4 个 字符 ) 和 SALARY (5 位 的 十 
进 制 数 ) 。 

2) 在 内 部 层 中 ， 和 雇员 由 长 度 为 20 字 节 、 名 称 为 STORED_EMP 的 存储 记录 类 型 来 表示 。 
STORED_EMP 包含 四 个 存储 字段 :6 字 节 的 前 缀 (大 概 包 含 如 代码 、 标 记 或 指针 这 样 的 控制 信 





”很 抱 堵 在 这 里 我 们 采用 这 些 比 较 早期 的 程序 语言 来 举例 ， 但 无 可 否认 的 是 ，PLVI 和 COBOL 在 现今 的 商业 应 用 
中 还 是 使 用 很 广泛 的 。 
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息 ) 和 对 应 于 雇员 的 三 个 属性 的 三 个 数据 字段 。 此 外 ，STORED_EMP 记录 按 雇员 号 字段 进行 索 
引 ， 索 引 名 为 EMPX， 索 引 的 定义 随后 给 出 。 

3) PLAI 用 户 对 应 一 个 数据 库 的 外 部 视图 ， 其 中 ， 每 个 雇员 由 一 条 包含 两 个 字段 的 PLAI 记 
录 来 表示 (部 门 号 对 该 用 户 没有 意义 ， 故 已 经 省 略 ) 。 记 录 类 型 是 根据 PLAI 的 规则 由 通常 的 
PL/I 结 构 声 明 来 定义 的 。 

4) 类 似 地 ，COBOL 用 户 也 对 应 一 个 外 部 视图 ， 其中， 每 个 雇员 也 由 包含 两 个 字段 的 COBOL 
记录 来 表示 (这 次 ， 工 资 字段 被 省 略 ) 。 记 录 类 型 是 根据 COBOL 的 规则 由 通常 的 COBOL 记录 描述 
来 定义 的 。 








外 部 层 (PL/I) 外 部 层 (COBOL) 
DCL 1 EMPP, 01 EMPC. 
2 EMP# CHAR(6), 02 EMPNO PIC XxX(6). 
2 SAL FIXED BIN(31); 02 DEPTNO PIC X(4). 


EMPLOYEE 
EMPLOYEE NUMBER CHARACTER( 6) 
DEPARTMENT NUMBER CHARACTER(4) 
SALARY DECIMAL(5) 


STORED_EMP BYTES=20 
PREFIX BYTES=6 ,OFFSET=0 
EMP# BYTES=6 ,OFFSET=6, INDEX=EMPX 
DEPT# BYTES=4,OFFSET=12 
PAY BYTES=4,ALIGN=FULLWORD, OFFSET=16 





图 2-2 三 级 层次 举例 


注意 : 在 不 同 的 视图 中 相应 的 数据 项 可 有 不 同 的 名 字 。 例 如 ， 雇 员 号 在 PL/ 工 外 部 视图 中 称 
为 EMP#， 而 在 COBOL 外 部 视图 中 称 为 EMPNO ， 在 概念 视图 中 称 为 EMPLOYEE_NUMBER ， 而 
在 内 部 视图 中 又 称 为 EMP#。 当 然 ， 系 统 必 须知 道 它 们 之 间 的 关系 : 例如 ， 要 告知 系统 COBOL 
的 EMPNO 字段 来 自 概念 字段 EMPLOYEE_NUMBER， 而 EMPLOYEE_NUMBER 又 来 自 于 内 部 
视图 的 存储 字段 BMP#。 这 种 对 应 关系 或 映像 在 图 2-2 中 并 未 清楚 地 表现 出 来 ; 可 参见 2. 6 节 进 
一 步 的 讨论 。 
本 章 所 谈论 的 内 容 对 系统 是 不 是 关系 的 ， 差 别 不 大 。 不 过 ， 简 要 说 明 一 下 关系 系统 中 三 级 体 
系 结构 的 情况 ， 对 具体 理解 这 一 概念 不 无 神 益 : 
em 首先 ， 关 系 系统 的 概念 层 一 定 是 关系 的 ， 在 该 层 可 见 的 实体 是 关系 的 表 和 关系 的 操作 符 
(尤其 包括 第 1 章 中 提 到 的 选择 和 投影 操作 符 ) 。 
se 第 二 ， 外 部 视图 也 是 关系 的 或 接近 关系 的 ; 例如 ， 在 图 2-2 中 ，PL/AI 和 COBOL 的 记录 定 
义 可 以 被 当 作 与 关系 系统 的 关系 表 相 似 的 PL/I 和 COBOL 的 声明 。 注 意 : 这 里 应 指出 
“外 部 视图 ”一 词 《有 时 简称 为 视图 ) 在 关系 系统 中 有 其 特定 的 含义 ， 它 与 本 章 提 到 的 含 
义 有 所 不 同 。 有 关 它 在 关系 系统 下 的 含义 见 第 3 章 和 第 10 章 的 解释 。 
s 第 三 ， 内 部 层 不 是 关系 的 ， 因 为 该 层 的 实体 不 是 关系 表 的 原样 照搬 。 其 实 不 管 是 什么 系 
统 ， 其 内 部 层 都 是 一 样 的 〈 如 存储 记录 、 指 针 、 索 引 、 散 列 ， 等 等 ) 。 事 实 上 ， 关 系 模型 
与 内 部 层 无 关 ， 正 如 第 1 章 所 指出 的 ， 它 关心 的 是 用 户 的 数据 视图 。 
现在 我 们 从 外 模式 开始 进一步 讨论 三 层 体系 结构 的 细节 。 整 个 讨论 都 以 图 2-3 为 基础 ， 该 图 
显示 了 体系 结构 的 主要 组 成 部 分 和 它们 之 间 的 联系 。 


2.3 外 部 层 

外 部 层 就 是 单个 用 户 的 数据 视图 。 如 第 1 章 所 述 ， 一 个 用 户 可 以 是 应 用 程序 员 或 任 一 最 终 用 
户 。 (这 里 DBA 是 一 个 特例 ， 与 其 他 用 户 不 同 ，DBA 还 要 了 解 概念 层 和 内 部 层 ， 详 见 下 面 
两 节 。) 
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图 2-3 系统 体系 结构 详 图 


每 个 用 户 都 有 其 自己 要 使 用 的 语言 : 

a 对 于 应 用 程序 员 ， 可 能 会 使 用 常规 的 编程 语言 (如 PLLI、C++ 或 Java) 或 其 他 专用 语言 。 

这 些 专 用 语言 通常 被 称 作 “第 四 代 ” 语 言 (4GL) ， 这 是 由 于 (a) 机 器 语言 、 汇 编 语 言 和 

像 PL/I 这样 的 语言 被 视 为 第 一 、 二 、 三 代 语 言 ; (b) 专用 语言 是 对 “第 三 代 ” 语 言 

(3GL) 的 发 展 ， 就 像 第 三 代 语言 对 汇编 语言 的 发 展 和 汇编 语言 对 机 器 语言 的 发 展 一 样 。 

9 对 于 最 终 用 户 ， 其 使 用 的 语言 或 者 是 一 种 查询 语言 或 是 某 一 特定 目的 的 语言 ， 这 些 语言 可 

能 是 表格 驱动 的 或 菜单 驱动 的 ， 可 处 理 用 户 的 请 求 并 由 联机 的 应 用 程序 来 支持 。 

重要 的 是 ， 所 有 这 些 语 言 都 包含 数据 子 语言 一 一 即 数据 库 对 象 和 操作 的 整个 语言 的 一 个 子 
集 。 数 据 子 语言 (在 图 2-3 中 使 用 缩写 词 DSL 表述 ) 嵌入 在 相应 的 主语 言 中 。 主 语言 负责 提供 
各 种 非 数 据 库 的 功能 ， 如 局 部 变量 、 计 算 操 作 、 人 逻辑 分 支 等 等 。 一 个 指定 系统 可 以 支持 多 种 主语 
言 和 多 种 数据 子 语言 ， 但 是 目前 大 多 数 系统 支持 的 特定 的 数据 子 语 言 是 SQL 语言 , 第 1 章 已 经 
简要 地 介绍 过 。 多 数 系统 允许 SQL 既 可 以 作为 独立 的 交互 查询 语言 ， 又 可 崩 人 到 诸如 PLAI、 
C++ 或 Java 等 主语 言 中 ( 见 第 4 章 的 进一步 讨论 ) 。 

尽管 对 体系 结构 来 说 ， 区 分 数据 子 语 言 和 包含 它 的 主语 言 是 方便 的 ， 但 对 用 户 来 说 ， 两 者 实 
际 上 没有 多 大 区 别 ; 的 确 ， 从 用 户 的 观点 来 看 ， 他 们 宁可 两 者 没有 区 别 。 如 果 没 有 区 别 ， 或 很 困 
难 才能 区 别 出 来 ， 我 们 称 两 者 是 紧 疣 合 (这 个 整体 称 为 一 种 数据 库 编 程 语 言 ”) 。 如 果 很 容易 清 
楚 地 区 分 ， 我 们 称 两 者 是 松 耦 合 。 一 些 商 业 系 统 (包括 某 些 SQL 产品 ， 如 Oracle) 支持 紧 耦 合 ， 
但 多 数 系统 不 支持 〈 紧 看 合 提供 给 用 户 一 套 统 一 方便 的 功能 ， 但 很 显然 ， 系 统 开发 者 在 实现 上 
面 要 花 很 大 功夫 ) 。 

理论 上 ， 任 何 特定 的 数据 子 语言 至 少 包含 两 个 子 语言 一 一 数据 定义 语言 (DDL) 和 数据 操 
纵 语 言 (DML ) 。 数 据 定义 语言 支持 对 数据 库 对 象 的 定义 或 说 明 ; 数据 操纵 语言 支持 对 这 些 对 象 
的 操纵 和 处 理 ? 。 例 如 ,考虑 2. 2 节 的 图 2-2 中 的 PLXI 用户 的 情况 。 该 用 户 的 数据 子 语言 包括 
用 于 与 DBMS 通信 的 那些 PL/I 的 特征 : 





@ 在 后 面 儿 章 我 们 将 用 Tutorial D 作为 例子 ， 它 是 一 种 数据 库 编程 语言 。 参 考 本 书 的 前 言 ， 其 中 有 关于 这 个 主题 
的 叙述 。 
外 “操纵 ” (manipulation) 这 个 词 并 不 是 十 分 贴切 的 ， 但 是 在 广泛 的 使 用 中 已 经 得 到 默许 。 
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a 数据 定义 语言 部 分 包括 PLAI 用 于 声明 数据 库 对 象 的 那些 声明 性 构造 一 一 声明 (DE- 
CLARE) 语句 本 身 ， 某 些 PLZI 数据 类 型 ， 以 及 对 PLZI 的 可 能 的 扩展 (以 支持 现 有 的 
PL/I 不 能 处 理 的 新 对 象 ) 。 

数据 操纵 语言 部 分 包括 PLZI 的 可 执行 语句 ， 这 些 语句 完成 与 数据 库 的 信息 传递 一 一 也 可 
能 包括 特殊 的 新 语句 。 

注意 : 准确 地 说 ， 在 编写 本 书 时 ，PL/I 实际 上 根本 不 包括 任何 特殊 的 数据 库 特征 。 典 型 情 
况 下 ，DML 语句 只 是 PLZI 用 于 调用 DBMS 的 CALL 语句 (尽管 那些 语句 以 某 种 方式 掩盖 了 语 
法 结构 以 使 得 对 用 户 更 友好 ， 见 第 4 章 对 和 髓 人 式 SQL 的 讨论 ) 。 

再 来 看 体系 结构 :; 我 们 已 经 指出 ， 单 个 用 户 大 多 只 对 整个 数据 库 的 某 些 部 分 感 兴趣 ; 而 且 与 
数据 的 物理 存储 方式 比较 而 言 ， 其 用 户 视图 通常 有 些 抽象 。ANSL/SPARC 称 单个 用 户 视图 的 术 
语 为 外 部 视图 。 外 部 视图 就 是 特定 用 户 所 看 到 的 数据 库 的 内 容 〈 即 对 那些 用 户 来 说 ， 外 部 视图 
就 是 数据 库 ) 。 例 如 ， 人 事 部 门 的 用 户 可 能 把 部 门 和 雇员 记录 值 的 集合 作为 数据 库 ， 而 没有 意识 
到 采购 部 门 的 用 户 所 看 见 的 供应 商 和 符 件 的 记录 值 。 

通常 ， 外 部 视图 包括 许多 外 部 记录 类 型 的 值 (不必 和 存储 记录 一 样 )”。 用 户 数据 子 语言 是 
根据 外 部 记录 来 定义 的 ; 例如 ， 数 据 操纵 语言 的 检索 操作 将 检索 到 外 部 数据 记录 值 ， 而 非 存储 记 
录 的 值 。( 注意 : 在 第 1 章 提 到 的 “逻辑 记录 ”一 词 实际 上 指 的 是 外 部 记录 。 在 以 后 的 讨论 中 我 
们 将 会 尽量 避免 使 用 “人 逻辑 记录 ”一 词 。) 

每 个 外 部 视图 都 是 通过 外 模式 来 定义 的 ， 外 模式 包括 外 部 视图 中 的 各 种 外 部 记录 类 型 的 基本 
定义 (参见 图 2-2 的 两 个 简单 的 例子 ) 。 外 模式 是 使 用 用 户 数据 子 语言 的 DDL 部 分 来 编写 的 〈 因 
此 有 时 DDL 也 称 为 外 部 DDL) 。 例 如 ， 雇 员外 部 记录 类 型 就 可 以 定义 为 6 个 字符 的 雇员 号 字段 
加 5 位 〈 十 进 制 数 ) 的 工资 字段 ， 等 等 。 此 外 ， 在 外 模式 和 其 下 面 的 概念 模式 ( 见 下 一 节 ) 之 
间 要 定义 上 映像。 我 们 将 在 2.6 节 讨 论 映 像 。 


2.4 概念 层 


概念 视图 是 由 概念 模式 (conceptual schema) 定义 的 。 概 念 模式 包括 各 种 概念 记录 型 的 定义 
( 见 图 2-2 中 的 简单 例子 ) 。 概 念 模式 是 用 另 一 种 数据 定义 语言 来 写 的 ， 即 概念 DDL。 如 果 可 以 
实现 物理 记录 的 独立 性 ， 那 么 概念 DDL 定义 根本 不 涉及 物理 表示 和 访问 的 技术 一 一 它们 只 定义 
信息 的 内 容 。 这 样 ， 在 概念 模式 中 不 能 涉及 存储 字段 表示 、 存 储 记录 队列 、 索 引 、 散 列 算法 、 指 
针 或 其 他 存储 和 访问 的 细节 。 如 果 概 念 视图 以 这 种 方式 真正 地 实现 数据 独立 性 ， 那 么 根据 这 些 概 
念 模式 定义 的 外 模式 也 会 有 很 强 的 独立 性 〈 见 2.6 节 )。 

概念 视图 表示 数据 库 的 全 部 信息 内 容 ， 其 形式 要 比 数据 的 物理 存储 方式 抽象 些 。 通 常 ， 它 与 
任何 特定 用 户 观察 数据 的 方式 都 很 不 同 。 广 义 上 讲 ， 概 念 视图 更 接近 于 实际 数据 ， 而 不 像 某 一 用 
户 所 看 到 的 数据 一 一 这 些 数据 受到 特定 语言 或 可 能 使 用 的 硬件 的 限制 。 

概念 视图 由 许多 概念 记录 类 型 的 值 构成 。 例 如 ， 它 可 能 包括 部 门 记 录 值 的 集合 、 雇 员 记录 值 
的 集合 、 供 应 商 记 录 值 的 集合 、 零 件 记录 值 的 集合 ， 等 等 。 概 念 记录 既 不 和 外 部 记录 相同 ， 也 不 
和 存储 记录 相同 。 

概念 视图 是 整个 数据 库 内 容 的 视图 ， 概 念 模式 是 该 视图 的 定义 。 但 如 果 把 概念 模式 只 理解 为 
类 似 COBOL 程序 中 简单 的 记录 定义 一 样 的 一 组 定义 ， 那 是 不 准确 的 。 在 概念 模式 中 的 定义 应 包 
括 许多 额外 的 特征 ， 诸 如 第 1 章 中 提 到 的 安全 性 和 完整 性 约束 。 到 目前 为 止 ， 有 些 权 威 人 士 认为 
概念 模式 的 根本 目的 是 描述 整个 企业 的 情况 一 一 不 只 是 数据 本 身 ， 而 且 还 包括 数据 的 使 用 情况 ， 
即 数据 在 企业 中 的 流动 情况 、 在 每 一 部 门 的 用 处 以 及 对 数据 实行 的 审计 和 其 他 控制 等 [2.3]。 





”在 这 里 我 们 假定 所 有 的 信息 在 外 部 层 中 都 是 以 记录 的 形式 表示 的 。 然 而 ， 很 多 系统 中 允许 将 信息 表示 成 其 他 的 
形式 。 对 于 这 种 可 以 选择 表示 方式 的 系统 ， 本 节 中 所 给 出 的 定义 和 解释 都 需要 适当 地 修改 。 对 于 概念 模式 和 内 
部 层 的 情况 也 是 一 样 的 。 对 这 些 问 题 的 细节 的 考虑 已 经 超出 了 本 书 的 范围 ， 可 以 参考 第 14 章 (尤其 是 该 章 的 参 
考 文献 -- 节 ) 和 第 25 章 以 获取 更 多 信息 。 内 部 层 的 情况 可 以 参考 附录 A。 
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但 必须 强调 的 是 ， 目 前 的 系统 实际 上 还 不 能 支持 这 种 程度 的 概念 模式 ” ; 目前 大 多 数 系统 支持 的 
“概念 模式 ”实际 上 只 不 过 是 把 单个 的 外 模式 合并 起 来 ， 再 加 上 一 些 安全 性 约束 和 完整 性 约束 。 
但 是 将 来 的 系统 很 可 能 提供 更 加 复杂 的 概念 模式 。 


2.5 内 部 层 


体系 结构 的 第 三 层 是 内 部 层 。 内 部 视图 是 整个 数据 库 的 低层 表示 ; 它 由 许多 内 部 记录 类 型 的 
值 组 成 。“ 内 部 记录 ”是 ANSL/SPARC 对 存储 记录 的 称谓 (我 们 继续 使 用 后 者 ) 。 内 部 视图 与 物 
理 层 仍然 不 同 ， 因 为 它 并 不 涉及 物理 记录 ( 即 物 理 块 或 页 ) 的 形式 ， 也 不 考虑 具体 设备 的 柱 面 
或 磁道 大 小 。 换 句 话 说， 内 部 视图 假定 了 一 个 无 限 大 的 线性 地 址 空间 ; 地 址 空间 到 物理 存储 的 映 
像 细 节 是 与 特定 系统 有 关 的 ， 它 未 反映 在 体系 结构 中 。 

注意 : 抉 或 页 是 输入 /输出 的 单位 一 一 也 就 是 说 ， 在 一 次 输入 /输出 操作 中 ， 二 级 存储 和 主 存 
之 间 传 输 的 数据 量 。 典 型 的 页 面 大 小 在 1KB ~ 64KB 之 间 ， 其 中 1KB =1 千 字 节 = 1024 字 节 。 

内 部 视图 由 内 模式 来 描述 ， 内 模式 不 仅 定 义 各 种 存储 记录 ， 而 且 也 说 明 存 在 什么 索引 ， 存 储 
记录 怎么 表示 ， 存 储 记 录 是 在 什么 物理 队列 中 等 等 〈 见 图 2-2 中 简单 的 例子 ， 也 可 以 参考 在 线 的 
附录 D) 。 内 模式 是 用 另 一 种 数据 定义 语言 一 一 内 部 DDL 来 写 的 。 

注意 : 本 书 中 我 们 通常 使 用 更 直观 的 词 “ 存 储 数据 库 ” 代 兰 “ 内 部 视图 " ， 用 “存储 数据 库 
定义 ”代替 “内 模式 ”。 在 某 些 特殊 的 情况 下 ,应 用 程序 一 一 尤其 是 实用 程序 ( 见 2.11 
节 ) 一 一 可 能 会 直接 操作 内 部 层 而 不 是 外 部 层 。 当 然 ， 这 种 做 法 肯定 是 不 妥 的 ， 这 会 带 来 一 定 
的 安全 性 和 完整 性 隐患 ( 即 安 全 性 约束 和 完整 性 约束 会 被 绕 过 ) ， 并 且 应 用 程序 会 失去 数据 独立 
性 。 但 有 时 为 了 保证 功能 或 性 能 上 的 要 求 ， 又 不 得 不 这 样 做 。 这 就 像 使 用 高 级 语言 系统 的 用 户 ， 
偶尔 会 使 用 汇编 语言 以 满足 特定 的 功能 或 性 能 上 的 要 求 一 样 。 


2.6 映像 


除了 三 级 部 层 本 身 ， 图 2-3 中 的 体系 结构 还 含有 一 定 的 映像 关系 一 一 即 概念 模式 /内 模式 间 
的 映像 和 外 模式 /概念 模式 间 的 映像 。 一 般 地 讲 : 

s 概念 模式 /内 模式 间 的 映像 定义 了 概念 视图 和 存储 数据 库 间 的 对 应 关系 ， 它 说 明了 概念 记录 
和 字段 在 内 部 层次 怎样 表示 。 如 果 数 据 库 的 存储 结构 改变 了 一 一 也 就 是 说 ， 如 果 改 变 了 存储 
结构 的 定义 一 一 那么 概念 模式 /内 模式 间 的 映像 必须 进行 相应 的 改变 ， 以 便 概念 模式 能 够 保 
持 不 变 〈 当 然 ， 对 这 些 变动 的 管理 是 数据 库 管理 员 或 甚至 可 能 是 DBMS 的 责任 ) 。 换 句 话 
说 ， 为 了 保持 数据 的 物理 独立 性 ， 内 模式 变化 所 带 来 的 影响 必须 与 概念 模式 隔离 开 来 。 
外 模式 /概念 模式 间 的 映像 定义 了 特定 的 外 部 视图 和 概念 视图 之 间 的 对 应 关系 。 一 般 地 讲 ， 
这 两 层 之 间 存 在 的 差异 与 概念 视图 和 存储 数据 库 之 间 存 在 的 差异 是 类 似 的 。 例 如 ， 字 跋 可 
能 有 不 同 的 数据 类 型 ;字段 和 记录 名 可 以 改变 ; 几 个 概念 字段 能 合成 一 个 单一 的 外 部 字 
段 ， 等 等 。 可 能 同时 存在 多 个 外 部 视图 ; 多 个 用 户 可 共享 一 个 特定 的 外 部 视图 ; 不 同 的 外 
部 视图 可 能 有 交叉 。 

不 需要 涉及 太 多 细节 也 可 以 看 到 ， 就 像 概 念 模式 /内 模式 间 的 映像 是 物理 数据 独立 性 
的 关键 ， 外 模式 /概念 模式 间 的 映像 是 胃 辑 数据 独立 性 的 关键 。 如 在 第 1 章 中 所 述 ， 如 果 
相对 于 数据 库 物理 结构 的 改变 ， 用 户 和 用 户 的 应 用 程序 能 保持 不 变 ， 系 统 就 提供 了 物理 数 
据 独立 性 【1.3]j。 同 样 ， 如 果 对 于 数据 库 逻 辑 结构 的 改变 〈 即 在 概念 或 公共 逻辑 层 的 改 
变 ) ， 用 户 和 用 户 的 应 用 程序 能 保持 不 变 ， 系 统 就 提供 了 逻辑 数据 独立 性 [1.4]。 在 第 3 
章 和 第 10 章 还 会 就 这 一 重要 问题 做 进一步 的 说 明 。 
此 外 ， 多 数 系统 允许 以 其 他 形式 定义 某 些 外 部 视图 (通过 外 模式 /外 模式 间 的 映像 )， 而 
不 总 是 要 求 一 个 明确 的 到 概念 层 的 映射 定义 。 这 是 一 个 很 有 用 的 特征 ， 特 别 是 当 几 个 外 部 
视图 相互 非常 类 似 时 。 关 系 系统 一 般 会 提供 这 种 功能 。 








有 的 读者 可 能 认为 “商业 规则 ”用 词 更 贴切 ( 见 第 9、14 章 ) 。 
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2. 7 ”数据库 管理 员 


如 第 1 章 中 所 述 ， 数 据 管理 员 (DA) 是 根据 企业 的 数据 制定 策略 和 决策 的 人 ， 数 据 库 管理 员 
(DBA) 对 执行 这 些 决定 提供 必要 的 技术 支持 。 因 此 ， 数 据 库 管 理 员 负责 在 技术 层 的 全 局 控制 。 我 
们 可 以 更 详细 地 描述 数据 库 管 理 员 的 任务 。 通 常 ， 数 据 库 管 理 员 的 任务 至 少 包括 下 列 内 容 : 


定义 概念 模式 。 数 据 管理 员 的 工作 是 决定 数据 库 中 存放 的 信息 一 一 换 名 话说， 是 确定 对 企 
业 有 用 的 实体 和 实体 的 相关 信息 。 这 一 过 程 通 常 是 指数 据 库 的 逻辑 设计 (有 时 也 称 概 念 
设计 ) 。 一 旦 数据 管理 员 在 抽象 的 层次 上 决定 了 数据 库 的 内 容 ， 数 据 库 管理 员 就 使 用 概念 
DDL 创建 相应 的 概念 模式 。 模 式 的 目标 形式 (已 编译 的 ) 由 数据 库 管 理 系统 在 响应 访问 
要 求 时 使 用 。 源 形式 (未 编译 的 ) 作为 系统 用 户 的 参考 文档 。 

在 实际 中 ， 事情 并 不 像 前 面 所 说 的 那样 能 够 清楚 地 区 分 。 某 些 情况 下 ， 数 据 管 理 员 可 
能 直接 创建 概念 模式 。 另 外 ， 数 据 库 管理 员 也 可 以 做 多 辑 设 计 。 
定义 内 模式 。DBA 也 决定 存储 数据 库 中 数据 表示 的 问题 。 这 一 过 程 通常 叫做 数据 库 的 物 
理 设计 。 完 成 物理 设计 之 后 ，DBA 必须 使 用 内 部 DDL 创建 相应 的 存储 数据 库 定 义 〈 内 模 
式 ) 。 此 外 ，DBA 必须 定义 相应 的 概念 模式 /内 模式 间 的 上 映像。 实际 上 ， 概 念 DDL 或 内 部 
DDL 一 一 更 多 的 可 能 是 指 前 者 一 一 会 包括 定义 映像 的 方法 , 但 是 两 方面 功能 (创建 模式 ， 
定义 上 映像 ) 要 清楚 地 分 开 。 像 概念 模式 一 样 ， 每 个 内 模式 和 相应 的 映像 都 会 以 源 形式 和 
目标 形式 存在 。 

注意 这 样 一 种 顺序 ， 首先 决定 你 需要 什么 样 的 数据 ， 然 后 决定 怎样 存储 它 。 物 理 设 计 
总 是 在 逻辑 设计 之 后 。 
与 用 户 联络 。 为 了 确保 用 户 需 要 的 数据 可 用 ， 并 可 以 使 用 外 部 DDL 来 编写 (或 帮助 用 户 
写 ) 必要 的 外 模式 ，DBA 要 负责 与 用 户 的 联络 。( 如 前 所 述 ， 一 个 指定 的 系统 可 以 支持 几 
个 不 同 的 外 部 DDL。) 此 外 ， 相 应 的 外 模式 /概念 模式 间 的 映像 也 需要 定义 。 实 际 上 ， 外 
部 DDL 会 包括 说 明 映 像 的 方法 , 但是， 模式 和 映像 要 清楚 地 分 开 。 每 个 外 模式 和 相应 的 
映像 都 以 源 形式 和 目标 形式 两 种 方式 存在 。 

与 用 户 联络 的 其 他 方面 还 包括 就 应 用 程序 的 设计 给 出 咨询 ， 提 供 技术 培训 ， 帮 助 决 定 
问题 和 解决 问题 ， 以 及 类 似 的 专业 服务 。 
定义 安全 性 和 完整 性 约束 。 如 2.4 节 所 述 ， 安 全 性 和 完整 性 约束 可 以 当 作 概念 模式 的 一 部 
分 。 概 念 DDL 必须 包括 说 明 这 些 约束 的 功能 。 
定义 转 储 和 重 载 机 制 。 一 旦 企业 采用 了 数据 库 系 统 ， 它 就 非常 依赖 于 对 系统 的 正确 操作 。 
如 果 数 据 库 的 任何 部 分 遭 到 破坏 一 一 比如 说 人 为 引起 的 硬件 错误 或 操作 系统 错误 一 一 必须 
能 够 以 最 小 的 代价 恢复 数据 ， 且 尽量 减 小 对 系统 的 影响 。 例 如 ， 未 被 破坏 的 数据 的 访问 并 
不 受 影响 等 。DBA 必须 定义 和 实现 一 个 恰当 的 破坏 控制 计划 。 这 些 计划 通常 应 包括 定期 
印 载 数据 库 或 将 数据 库 转 储 到 备份 存储 设备 上 ， 并 且 当 需要 时 从 最 近 的 转 储 中 重 载 或 焦 复 
数据 库 。 





顺便 提 一 下 ， 快 速 恢复 数据 的 需求 是 将 整个 数据 分 散 到 几 个 数据 库 中 而 不 是 全 都 保存 在 一 个 
数据 库 中 的 主要 原因 ; 单个 数据 库 可 能 是 转 储 和 重 载 的 最 佳 单元 。 在 这 个 关系 中 ， 注 意 TB? 级 
系统 即 存 储 了 若干 太 字 节 数据 的 商业 数据 库 ) 已 经 存在 ， 而 且 未 来 的 系统 的 数据 量 会 更 大 。 
毫 无 疑问 ， 这 种 超大 规模 数据 库 (VLDB) 系统 要 求 非常 精细 和 复杂 的 管理 ， 尤 其 是 要 求 系统 不 
间断 运行 的 时 候 。 然 而 ， 为 了 简便 起 见 ， 我 们 仍 只 考虑 单一 数据 库 的 情况 。 


监控 系统 性 能 并 响应 不 断 变化 的 请 求 。 在 第 1 章 中 提 到 ，DBA 负责 组 织 系 统 ， 以 得 到 对 
企业 最 佳 的 性 能 ， 并 根据 需求 的 改变 来 做 相应 的 调整 (或 调节 ) 。 例 如 ， 可 能 要 不 时 地 对 





© 


1024 字 节 =1 千 字 节 (KB); 1024 KB =1 兆 字 节 (MB); 1024 MB = ! 吉 字 节 (GB); 1024 GB =1 太 字 节 
(TB); 1024 TB =1 拍 字 节 (PB); 1024 PB =1 龙 字 节 (EB 或 XB); 1024 XB =1 (ZB); 1024 ZB =1 (YB)。 
注意 : BB 有 时 可 以 用 来 蔡 代 GB ( 即 十 亿 ) 。Gigabyte 发 音 为 轻 音 g 加 上 长 音 i (和 gigantic 中 一 样 ) 。 
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数据 库 进行 重新 组 织 以 确保 其 效率 。 如 前 所 述 ， 任 何 对 系统 物理 存储 层 的 改变 都 要 伴 以 相 
应 概念 模式 /内 模式 间 的 映像 定义 的 改变 ， 以 便 概 念 模式 保持 不 变 。 
当然 ， 以 上 并 非 详尽 的 描述 ， 只 是 试图 对 DBA 的 职责 范围 和 特点 给 出 一 些 介 绍 。 


2.8 数据 库 管理 系统 


数据 库 管理 系统 (DBMS ) 是 处 理 数 据 库 访问 的 软件 。 从 概念 上 说 ， 它 包括 以 下 处 理 过 程 
(参见 图 2-3 ) : 
1) 用 户 使 用 某 数据 子 语 言 (通常 是 SQL) 发 出 一 个 访问 请 求 。 
2) DBMS 接受 请 求 并 分 析 它 。 
3) DBMS 接 下 来 检查 用 户外 模式 (目标 形式 ) 、 相 应 外 模式 /概念 模式 间 的 映像 、 概 念 模 
式 、 概 念 模式 /内 模式 间 的 映像 和 存储 数据 库 定义 。 
4) DBMS 执行 对 数据 库 的 必要 的 操作 。 
下 面 通过 一 个 例子 来 看 一 下 检索 一 个 特定 外 部 记录 值 的 过 程 。 通 常 ， 要 从 几 个 概念 记录 值得 
到 字段 ， 而 每 个 概念 记录 值 又 需要 来 自 几 个 存储 记录 值 的 字段 。 概 念 上 ，DBMS 首先 检索 所 有 要 
求 的 存储 记录 的 值 ， 然 后 构造 所 要 求 的 概念 记录 值 ， 接 着 再 构造 所 要 求 的 外 部 记录 值 。 在 每 个 阶 
段 都 可 能 需要 数据 类 型 或 其 他 方面 的 转换 。 
当然 ， 前 面 的 描述 非常 简单 ; 特别 是 ， 这 上 暗示 整个 过 程 是 解释 性 的 ， 因 为 它 表明 分 析 请 求 的 
处 理 、 检 查 各 种 模式 等 都 是 在 运行 时 做 的 。 反 过 来 ， 解 释 意 味 着 执行 效率 低 ， 因 为 这 增加 了 运行 
时 开销 。 为 此 ， 实 际 中 可 能 在 运行 之 前 先 对 访问 请 求 进行 预 编译 (尤其 是 ， 目 前 的 一 些 SQL 产 
品 支 持 这 一 点 一 一 参见 第 4 章 的 [4.13] 和 [4.27])。 
下 面 将 详细 地 解释 一 下 DBMS 的 功能 。 这 些 功 能 至 少 支持 下 列 内 容 (可 参见 图 2-4) : 
昌 数据 定义 。DBMS 必须 能 接受 数据 定义 的 源 形式 ， 并 把 它们 转化 成 相应 的 目标 形式 。 换 言 
之 ，DBMS 必须 包括 支持 各 种 数据 定义 语言 (DDL) 的 DDL 处 理 器 或 DDL 编译 器 。 在 
某 种 意义 上 ，DBMS 必须 理解 DDL 定义 ， 例 如 ， 它 理解 EMPLOYEE 外 部 记录 包括 SAL- 
ARY 字段 ; 并 能 够 利用 这 一 知识 来 分 析 和 响应 数据 操纵 要 求 (例如 ，“ 找 出 薪金 小 于 
50 000 美 元 的 雇员 ”) 。 
@ 数据 操纵 。DBMS 必须 能 够 检索 、 更 新 或 删除 数据 库 中 现 有 的 数据 ， 或 向 数据 库 增加 数 
据 。 换 名 话说 ，DBMS 必须 包括 处 理 数 据 操纵 语言 (DML) 的 DML 处 理 器 或 编译 器 。 
通常 ，DML 请 求 可 以 是 “计划 ”的 或 “ 非 计划 ”的 : 
a) 计划 的 请 求 是 指 在 请 求 执行 前 就 能 预见 到 有 关 的 需求 。DBA 可 以 据 此 调整 物理 数 
据 库 的 设计 ， 以 保证 请 求 有 好 的 执行 性 能 。 - 
b) 相反 ， 非 计划 的 请 求 是 指 需求 是 不 可 预知 的 ， 是 一 种 特殊 查询 。 物 理 数 据 库 的 设 
计 不 一 定 能 够 真正 适合 处 理 这 样 的 请 求 。 
使 用 第 1 章 中 的 术语 ， 计 划 的 请 求 是 “操作 型 ”或 “生产 型 ”应 用 的 特征 ， 而 非 计 
划 的 请 求 是 来 自 “ 决 策 支持 ”类 应 用 。 计 划 的 请 求 通常 来 自 预先 写 好 的 应 用 程序 ， 而 根 
据 定 义 ， 非 计划 的 请 求 是 通过 某 查询 语言 处 理 器 交互 发 出 的 。 (事实 上 ， 如 第 1 章 所 述 ， 
查询 语言 处 理 器 是 一 个 内 置 的 联机 应 用 程序 ， 而 不 是 DBMS 本 身 的 一 部 分 。 为 了 完整 ， 
我 们 把 它 包 括 在 图 2-4 中 。) 
@ 优化 和 执行 。 计 划 的 或 非 计 划 的 DML 请 求 必须 经 过 优化 器 部 件 的 处 理 ， 优 化 器 用 于 决定 
有 效 执行 请 求 的 方式 ? 。 有 关 优 化 的 问题 将 在 第 18 章 进行 详细 讨论 。 优 化 后 的 请 求 在 运 
行 管理 器 的 控制 下 执行 。( 注意 在 实际 操作 中 ， 运 行 管理 器 调用 文件 管理 器 来 访问 存储 
的 数据 。 有 关 文 件 管理 器 的 内 容 将 在 本 节 的 末尾 进行 详细 讨论 。) 
@ 数据 安全 性 和 完整 性 。DBMS 要 监控 用 户 的 请 求 ， 拒 绝 那些 企图 破坏 DBA 定义 的 数据 库 
安全 性 和 完整 性 约束 的 请 求 。 在 编译 时 或 运行 时 或 两 种 情况 同时 存在 时 都 会 执行 这 些 





本 书 中 所 说 的 “优化 ”是 专 指 对 DML 请 求 的 优化 ， 不 包括 其 他 。 
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任务 。 
上 数据 恢复 和 并 发 。DBMS 一 一 或 其 他 一 些 相关 的 软件 ， 通 常 称 作 事务 管理 器 或 事务 处 理 监 
控 器 一 一 必须 保证 要 有 恢复 和 并 发 控制 。 该 细节 内 容 已 经 超出 了 本 章 的 范围 ; 详细 讨论 见 


本 书 的 第 四 部 分 。 注 意 : 事务 管理 器 没有 在 图 2-4 中 出 现 ， 因 为 它 通常 并 不 是 DBMS 的 组 
成 部 分 。 
数据 字典 。DBMS 包括 数据 字典 。 也 可 以 将 数据 字典 本 身 看 作 是 一 个 数据 库 ( 系统 数据 
库 而 不 是 用 户 数据 库 ) 。 字 典 是 “数据 的 数据 ”( 有 时 称 为 数据 的 描述 或 元 数据 ) ， 即 系统 
中 其 他 实体 的 定义 ,而 不 只 是 “原始 数据 ”。 特 别 地 ， 在 数据 字典 中 ， 各 种 模式 和 映像 
(外 部 的 、 概 念 的 ， 等 等 ) 及 数据 的 各 种 安全 性 和 完整 性 约束 都 可 以 用 源 和 目标 两 种 形式 
来 存储 。 一 个 易 用 的 字典 还 包括 许多 其 他 信息 ,例如 ， 给 出 哪个 程序 用 数据 库 的 哪个 部 
分 ， 哪 个 用 户 使 用 哪个 报表 等 。 数 据 字典 甚至 还 可 以 集成 到 它 定义 的 数据 库 中 ， 因 而 包括 
它 自 己 的 定义 。 当 然 查询 数据 字典 和 查询 其 他 数据 库 是 相同 的 ， 因 此 ， 例 如 ， 可 以 分 出 哪 
个 程序 或 哪个 用 户 会 受到 系统 改变 的 影响 。 详 细 讨论 见 第 3 章 。 

注意 ; 在 这 一 领域 有 许多 术语 相互 混淆 。 有 些 人 把 “数据 字典 ” 称 作 目 录 或 分 
类 一 一 暗示 目录 或 分 类 比 真 正 的 数据 字典 处 于 更 内 层 一 一 而 用 “字典 ”一 词 指 某 种 〈 重 
要 的 ) 应 用 开发 工具 。 有 时 还 用 “数据 存储 池 ” ( 见 第 14 章 ) 或 “数据 百科 全 书 ” 来 指 
代 后 者 。 
se 性 能 。 毫 无 疑问 ，DBMS 应 尽 可 能 高 效 地 完成 上 述 任务 。 








非 计 划 ( 特 殊 ) 
的 DML 请 求 


实施 安全 性 和 
完整 性 约束 


图 2-4 DBMS 的 主要 功能 和 组 成 


总 而 言 之 ，DBMS 的 目的 就 是 提供 数据 库 系统 的 用 户 接口 。 用 户 接口 可 定义 为 系统 的 边界 ， 
其 内 部 细节 对 用 户 来 说 是 不 可 见 的 。 因 此 ， 根 据 定义 可 知 ， 用 户 接 口 是 外 模式 。 不 过 ， 有 时 外 部 
视图 与 它 下 面 的 概念 视图 的 相应 部 分 不 可 能 完全 分 清 ， 至 少 目前 的 商用 SQL 产品 还 不 能 将 外 部 
视图 完全 从 下 面 的 层次 中 独立 出 来 ， 我 们 将 在 第 10 章 详细 讨论 这 个 问题 。 
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以 下 通过 简单 地 对 比 数据 库 管 理 系统 和 文件 管理 系统 (文件 管理 器 或 文件 服务 器 ) 来 结束 
本 节 。 文 件 管理 器 是 操作 系统 管理 文件 的 部 件 ; 它 比 DBMS 更 “接近 磁盘 ”( 事 实 上 ，DBMS 通 
常 是 建立 在 某 文件 管理 器 之 上 的 ， 参 见 在 线 的 附录 D) 。 因 此 ， 文 件 管理 系统 的 用 户 就 可 以 创建 
或 删除 文件 ， 并 执行 对 这 些 文件 中 记录 的 简单 检索 和 更 新 操作 。 然 而 ， 与 DBMS 相 比 : 

s 文件 管理 器 并 不 了 解 记录 的 内 部 结构 ， 因 而 不 能 处 理 与 结构 相关 的 请 求 。 

文件 管理 器 一 般 很 少 提 供 或 根本 不 支持 安全 性 和 完整 性 约束 。 

se 文件 管理 器 一 般 很 少 提供 或 根本 不 支持 恢复 和 并 发 控制 。 

a 在 文件 管理 层 没有 真正 的 数据 字典 的 概念 。 

e 文件 管理 器 提供 很 少 的 数据 独立 性 。 

e 文件 一 般 不 像 数 据 库 那样 具有 “统一 性 ”或 “共享 性 ”， 文件 通常 是 用 户 或 应 用 程序 专 

用 的 。 


2. 9 数据 通信 


本 节 简 要 讨论 数据 通信 。 终 端 用 户 的 数据 库 请 求实 际 上 以 消息 的 形式 从 用 户 工作 站 一 一 在 物 
理 位 置 上 ， 对 于 数据 库 系 统 本 身 来 说 ， 工 作 站 可 能 是 远程 的 一 一 传递 给 一 些 联机 应 用 程序 (内 
建 的 或 其 他 ) ， 并 传递 给 DBMS。 同 时 ，DBMS 和 联机 应 用 程序 对 用 户 工作 站 的 响应 也 以 消息 的 
形式 传递 。 所 有 这 些 消息 通信 都 是 由 另 一 个 软件 部 件 一 一 数据 通信 管理 器 来 控制 的 。 

数据 通信 (DC) 管理 器 不 属于 DBMS ， 其 本 身 是 一 个 相对 独立 的 系统 。 但 由 于 要 与 DBMS 
协同 工作 ， 有 时 两 者 在 称 为 数据 库 / 数 据 通信 系统 (DB/DC 系统 ) 的 较 高 层 上 被 当 作 同等 的 部 
分 ,在 该 系统 中 DBMS 处 理 数据 库 ， 而 数据 通信 管理 器 处 理 传 送 给 DBMS 和 从 DBMS 发 出 的 消 
息 。 更 确切 地 说 ， 数 据 通信 管理 器 处 理 传送 给 使 用 DBMS 的 应 用 程序 和 从 应 用 程序 发 出 的 消息 。 
但 是 ， 本 书 对 消息 处 理 介绍 得 较 少 ( 它 本 身 是 一 个 大 课题 )。2. 12 节 简 要 地 讨论 了 在 不 同系 统 间 
通信 的 问题 〈 也 就 是 ， 在 像 因 特 网 那样 的 通信 网 络 中 不 同 机 器 之 问 通 信和 的 问题 ) ， 但 实际 上 那 又 
是 一 个 独立 的 主题 。 


2. 10 ”客户 /服务 器 体系 结构 


到 目前 为 止 ， 本 章 已 经 从 ANSLLSPARC 体系 结构 的 角度 论述 了 数据 库 系统 。 特 别 地 ， 在 
图 2-3 中 给 出 了 该 体系 结构 的 示意 图 。 本 节 从 一 个 稍微 不 同 的 角度 来 看 数据 库 系 统 。 

当然 ,数据库 系统 的 全 部 目的 是 支持 开发 和 执行 数据 库 应 用 程序 。 

从 较 高 层 来 看 ， 可 以 将 数据 库 系统 看 作 是 由 两 个 非常 简单 的 部 分 组 成 : 器 
一 个 服务 器 〈 也 称 为 后 端 ) 和 一 组 客户 〈 也 称 为 前 端 ) ， 见 图 2-5。 说 明 
如 下 : 

1) 服务 器 就 是 指 DBMS 本 身 ， 它 支持 2.8 节 讨 论 的 DBMS 的 所 有 
基本 功能 一 一 数据 定义 、 数 据 操纵 、 数 据 安全 性 和 完整 性 ， 等 等 。 换 句 
话说 ， 在 这 样 的 上 下 文中 ,“ 服 务 器 ”一 词 就 是 DBMS 的 另 一 个 称谓 。 

2) 客户 是 指 在 DBMS 上 运行 的 各 种 应 用 程序 一 一 用 户 编写 的 应 用 
程序 和 内 置 的 应 用 程序 ( 即 DBMS 厂商 或 某 第 三 方 厂商 所 提供 的 应 用 程 
序 ) 。 对 服务 器 来 说 ， 用 户 编 写 的 应 用 程序 和 内 置 的 应 用 程序 之 间 没 有 什 图 2-5 客户 /服务 器 
么 不 同一 一 它们 都 使 用 相同 的 服务 器 接口 ， 即 在 2. 3 节 提 到 的 外 模式 接 体系 结构 
口 。( 注意: 如 2.5 节 所 述 ， 某 些 特殊 的 “实用 程序 ”会 与 前 面 的 有 些 不 
同 ， 因 为 它们 有 时 会 直接 操纵 系统 的 内 模式 。 这 些 实用 程序 最 好 作为 DBMS 的 内 部 构件 ， 而 不 
是 通常 意义 下 的 应 用 程序 。 这 些 在 下 一 节 将 会 详细 讨论 。) 

我 们 简要 地 阐述 一 下 用 户 编写 的 应 用 程序 和 厂商 提供 的 应 用 程序 : 

es 用 户 编写 的 应 用 程序 基本 上 是 规范 的 应 用 程序 ， 采 用 第 三 代 语 言 (如 C++ 或 COBOL ) 

或 一 些 专门 的 第 四 代 语 言 来 编写 一 一 尽管 在 两 种 情况 下 该 语言 都 要 有 相应 的 数据 子 语言 来 
与 之 匹配 ， 如 2. 3 节 所 述 。 


终端 用 户 
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= 厂商 提供 的 应 用 程序 〈 常 称 为 工具 ) 的 基本 目的 是 支持 创建 和 执行 其 他 应 用 程序 。 所 创 
建 的 应 用 程序 是 为 某 些 特定 任务 定制 的 (它们 可 能 不 太 像 传统 的 应 用 程序 ; 的 确 ， 工 具 
的 关键 就 是 允许 用 户 ， 特 别 是 终端 用 户 ， 能 够 创建 应 用 程序 而 且 不 必 使 用 传统 的 程序 设计 
语言 来 编写 ) 。 例 如 ， 厂 商 提供 的 一 种 工具 是 报表 编写 器 ， 甚 目的 是 允许 终端 用 户 能 够 获 
得 系统 根据 其 请 求 提供 的 格式 化 报表 。 任 何 给 定 的 报表 请 求 可 以 被 当 作 一 个 小 的 应 用 程 
序 ， 它 是 用 高 层 的 〈 专用 的 ) 报表 编写 语言 来 写 的 。 
厂商 提供 的 工具 大 致 可 以 分 成 以 下 几 类 : 
a) 查询 语言 处 理 器 
b) 报表 编写 器 
c) 商用 图 形 子 系统 
d) 电子 制 表 软 件 
e) 自然 语言 处 理 器 
f) 统计 包 
8) 复制 管理 或 “数据 提取 ”工具 
h) 应 用 程序 生成 子 〈 包 括 第 四 代 语 言 处 理 器 ) 
i) 其 他 应 用 程序 开发 工具 ， 包 括 计算 机 辅助 软件 工程 (CASE) 产品 
j) 数据 挖 据 和 可 视 化 工具 
及 其 他 许多 软件 。 大 多 数 这 些 工 具 软 件 的 细节 已 经 超出 了 本 书 的 范围 ; 但 是 ， 因 为 数据 库 系 
统 的 目的 就 是 支持 应 用 程序 的 创建 和 执行 ， 所 以 可 获得 的 工具 软件 的 质量 在 “选择 数据 库 ”( 即 
选择 恰当 的 数据 库 产品 的 过 程 ) 时 当然 是 一 个 主要 因素 。 换 名 话说， 尽管 DBMS 是 一 个 非常 重 
要 的 因素 , 但 DBMS 本 身 并 非 要 考虑 的 唯一 因素 。 
根据 以 上 所 述 可 知 ， 既 然 整个 系统 可 以 清楚 地 分 成 服务 器 和 客户 端 两 个 部 分 ， 就 可 能 出 
现 将 这 两 个 部 分 分 置 于 不 同 的 机 器 上 的 情形 。 换 句 话说， 可 能 存在 分 布 式 处 理 。 分 布 式 处 理 
是 指 通过 通信 网 络 的 连接 ， 一 个 数据 处 理 任务 可 以 分 散 到 网 络 中 的 不 同 机 器 上 分 别 进行 处 理 。 
事实 上 ， 这 一 可 能 性 如 此 吸引 人 一 一 有 大 量 原因 ， 主 要 是 经 济 上 的 一 一 以 至 于 术语 “客户 / 服 
务 器 ”几乎 唯一 适用 于 的 确 需要 在 不 同 的 机 器 上 部 署 客户 和 服务 器 的 情况 。 我 们 将 在 2. 12 节 
论述 分 布 式 处 理 。 


2. 11 实用 程序 


实用 程序 (utility) 是 设计 用 于 帮助 DBA 处 理 各 种 管理 任务 的 程序 。 前 一 节 已 经 提 到 ， 一 
些 实用 程序 运行 于 系统 的 外 模式 层 ， 这 样 它 们 只 不 过 是 特定 目的 的 应 用 程序 ;甚至 有 些 不 是 
DBMS 厂商 提供 的 ， 而 是 由 第 三 方 提供 的 。 但 是 ， 其 他 实用 程序 直接 运行 于 系统 内 模式 层 ( 换 
言 之 ,它们 实际 上 是 服务 器 的 一 部 分 ) ， 因 而 必须 要 由 DBMS 厂商 提供 。 

下 列 是 实际 中 需要 的 各 种 实用 程序 的 一 些 实例 : 

s 载 入 例 程 ， 从 常规 数据 文件 创建 初始 化 数据 库 版 本 ; 

a 即 载 / 重 载 例 程 ， 印 载 数 据 库 或 其 一 部 分 ， 备 份 数 据 库 ， 并 从 这 些 备份 的 副本 重新 装 人 数 

据 (当然 ,“ 重 载 ”实用 程序 和 上 述 的 载 人 实用 程序 基本 上 是 一 样 的 ) ; 

se 重组 织 例 程 ， 由 于 各 种 原因 要 重新 组 织 数据 库 中 的 数据 一 一 例如 ， 将 磁盘 上 的 数据 聚集 起 

来 ， 或 回收 逻辑 上 废弃 数据 所 占用 的 空间 ; 

sa 统计 例 程 ， 计 算 各 种 性 能 统计 数据 ， 如 文件 大 小 、 数 值 分 布 或 输入 /输出 次 数 等 等 ; 

s 分 析 例 程 ， 分 析 上 述 的 统计 数据 。 

当然 ， 以 上 提 到 的 只 是 实用 程序 所 提供 功能 范围 中 的 小 部 分 ; 还 存在 其 他 丰富 的 功能 。 


2. 12 ”分 布 式 处 理 


在 2.10 节 已 经 提 到 过 ， 分 布 式 处 理 是 指 不同 机 器 可 以 通过 通信 网 络 ( 如 因特网 ) 连接 起 
来 ， 这 样 ， 一 个 数据 处 理 任 务 可 以 分 散 到 网 络 中 的 几 台 机 器 上 进行 分 别处 理 。( “并行 处 理 ” 一 
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词 有 时 也 用 于 同样 的 意义 ， 除 了 不 同 的 机 器 物理 上 连接 成 “并 行 ” 系 统 而 不 是 这 样 的 “分 布 ” 
系统 之 外 一 一 例如 ， 它 们 可 以 在 地 理 上 是 分 散 的 。) 在 不 同 机 器 之 间 的 通信 是 由 网 络 管理 软件 来 
处 理 的 一 一 可 能 是 2. 9 节 中 提 到 的 数据 通信 管理 器 的 扩展 ， 还 可 能 是 一 个 独立 的 软件 部 件 。 
在 各 种 层次 上 都 可 能 存在 分 布 式 处 理 ， 分 布 式 处 理 也 可 能 是 各 种 各 男 
LN 








样 的 。2. 10 节 已 经 提 及 ， 一 个 简单 的 例子 是 在 一 台 机 器 上 运行 DBMS 
后 端 (服务 器 ) ， 而 在 另 一 台 机 器 上 运行 应 用 程序 前 端 (客户 端 ) ， 见 


图 2-6。 应 用 程序 | | 客 记忆 
在 2. 10 节 的 末尾 已 经 提 到 过 ， 尽 管 “ 客 户 /服务 器 ”严格 地 说 是 体系 '™ 
结构 术语 ， 但 它 已 经 成 为 图 2-6 中 图 例 方案 的 同义词 ， 其 中 客户 和 服务 器 AAA 
运行 在 不 同 的 机 器 上 。 有 许多 理由 支持 这 样 一 种 方案 : 远程 访问 
= 从 通常 的 并 行 处 理 的 角度 考虑 ， 许 多 处 理 部 件 都 可 用 于 整个 任务 ， 
而 且 服务 器 和 客户 处 理 并 行进 行 。 这 样 ， 响 应 时 间 和 吞吐 率 就 提 服务 器 机 


高 了 。 所 -> 
。 服务 器 机 可 以 是 为 数据 库 管理 系统 功能 而 定制 的 机 器 数据库 机 ) ， | | 
这 样 就 使 数据 库 管理 系统 更 高 效 。 


a 客户 机 可 以 是 根据 终端 用 户 的 需要 定制 的 个 人 工作 站 ， 这 样 就 为 用 ” 图 2-6 运行 在 不 
户 提供 了 更 好 的 界面 、 高 可 用 性 、 快 速 响 应 和 全 面 提高 的 易 用 性 。 同 的 机 器 上 的 
me 几 台 不 同 的 客户 机 可 能 访问 同一 台 服 务 器 。 这 样 ， 几 个 不 同 的 客户 客户 机 和 
系统 可 以 共享 一 个 数据 库 ( 见 图 2-7)。 服务 器 
此 外 ， 在 不 同 机 器 上 运行 客户 机 和 服务 器 符合 企业 的 实际 运作 方式 。 一 个 企业 (例如 银行 ) 
运行 许多 计算 机 是 很 常见 的 ， 这 样 ， 企 业 就 可 以 把 -一 部 分 数据 存在 一 台 机 器 上 ， 而 另 一 部 分 数据 
存在 另 一 台 机 器 上 。 一 台 机 器 的 用 户 偶尔 访问 其 他 机 器 上 的 数据 也 是 很 平常 的 。 继 续 看 银行 这 个 
例子 ， 一 个 分 支 机构 的 用 户 偶尔 需要 访问 其 他 的 数据 。 注 意 ， 客 户 机 有 自己 的 存储 数据 ， 服 务 
器 有 自己 的 应 用 程序 。 因 此 ，- 一 般 地 讲 ， 每 台 机 器 都 会 作为 一 些 用 户 的 服务 器 和 另 一 些 用 户 
的 客户 机 〔( 见 图 2-8) ; 换 句 话说 ， 在 本 章 前 几 节 讨论 的 意义 下 ， 每 台 机 器 都 将 支持 整个 数据 
库 系 统 。 





图 2-7 一 台 服务 器 ， 多 台 客 户 机 图 2-8 每 台 机 器 既是 服务 器 又 是 客户 机 
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最 后 一 点 是 一 台 客户 机 可 能 访问 几 台 不 同 的 服务 器 机 (与 图 2-7 中 的 例子 的 情况 相反 ) 。 如 
前 所 述 ， 企 业 非 常 需要 这 种 功能 ， 因 为 企业 典型 的 运转 方式 是 整个 数据 不 是 存储 在 单个 的 机 器 
上 ， 而 是 分 散在 许多 不 同 的 机 器 上 ， 而 且 应 用 程序 需要 从 不 止 一 台 机 器 访问 数据 。 基 本 上 ， 有 两 
种 方式 可 以 提供 这 种 访问 : 

a 一 台 客 户 机 要 访问 任意 数目 的 服务 器 ， 但 是 一 次 只 能 访问 一 个 〈 即 每 个 单独 的 数据 库 请 

求 只 向 一 台 服 务 器 发 出 )。 在 该 系统 中 ， 不 可 能 在 一 个 请 求 中 将 两 个 或 更 多 的 服务 器 的 数 

据 结合 起 来 。 系 统 中 的 用 户 必 须 了 解 哪 台 机 器 存 有 哪些 数据 。 

sm 客户 机 可 以 同时 访问 许多 服务 器 〈 即 一 个 数据 库 请 求 可 以 将 几 个 不 同 数据 库 的 数据 结合 

起 来 ) 。 在 这 种 情况 下 ， 对 客户 机 来 说 ， 这 些 服务 器 〈 从 逻辑 上 看 ) 好 像 实际 上 只 是 一 台 

服务 器 ， 系 统 的 用 户 不 必 了 解 娜 台 机 器 存 有 哪些 数据 。 

后 一 种 情况 就 是 通常 所 说 的 分 布 式 数据 库 系 统 。 分 布 式 数据 库 本 身 是 一 个 大 课题 ， 随 之 而 来 
的 逻辑 结论 是 ， 完 整 的 分 布 式 数据 库 支 持 意 味 着 ， 单 个 的 应 用 程序 应 该 可 以 “透明 地 ”操纵 数 
据 ， 这 些 数据 分 布 在 各 种 不 同 的 数据 库 中 ， 由 不 同 的 DBMS 管理 ， 运 行 在 不 同 的 机 器 上 ， 受 不 
同 的 操作 系统 支持 ， 通 过 各 种 不 同 的 通信 网 络 连接 起 来 一 一 这 里 , “透明 地 ”的 意思 是 指 从 逻辑 
上 看 ， 应 用 程序 操纵 数据 ， 就 像 数据 都 由 运行 在 同一 台 机 器 上 的 DBMS 来 管理 。 这 种 功能 听 起 
来 有 点 儿 离谱 ! 但 是 从 实际 的 角度 来 看 ， 这 是 非常 有 吸引 力 的 ， 而 厂商 正在 努力 实现 这 样 的 系 
统 。 我 们 将 在 第 21 章 详细 讨论 这 些 系 统 。 


2. 13 小 结 


本 章 从 体系 结构 的 角度 分 析 了 数据 库 系 统 。 首 先 ， 我 们 介绍 了 ANSIL/SPARC 体系 结构 ， 它 
将 数据 库 分 成 了 内 模式 、 外 模式 和 概念 模式 三 层 。 其 中 ， 内 模式 最 接近 物理 存储 ( 即 它 要 考虑 
数据 的 物理 存储 ) ; 外 模式 最 接近 用 户 〈 即 它 要 考虑 单个 用 户 看 待 数据 的 方式 ) ; 而 概念 模式 则 
是 介 于 前 两 者 之 间 的 中 间 层 ( 它 提供 数据 的 公共 视图 ) 每 一 层 的 数据 由 一 个 模式 描述 (在 外 部 
层 可 能 是 几 个 模式 来 描述 ) 。 有 映像 定义 了 给 定 的 外 模式 与 概念 模式 之 间 的 对 应 关系 ， 以 及 概念 模 
式 与 内 模式 之 间 的 对 应 关系 。 映 像 是 提供 数据 进 辑 独立 性 和 数据 物理 独立 性 的 关键 。 

用 户 一 一 可 分 为 终端 用 户 和 应 用 程序 员 ， 两 者 都 操作 外 模式 一 一 通过 数据 子 语言 与 数据 交 
互 。 数 据 子 语言 至 少 又 分 成 两 部 分 : 数据 定义 语言 (DDL) 和 数据 操纵 语 商 (DML)。 数 据 子 语 
言 钳 和 人 在 主语 育 中 。 注 意 : 主语 言 和 数据 子 语言 间 的 界限 与 数据 定义 语言 和 数据 操纵 语言 间 的 界 
限 都 是 概念 上 的 ; 在 实际 应 用 中 ， 它 们 对 用 户 来 说 是 透明 的 。 

我 们 进一步 看 到 了 DBA 和 DBMS 的 功能 。DBA 负责 创建 内 模式 (数据 库 的 物理 设计 ); 相 
对 地 ， 创 建 概念 模式 (数据库 的 逻辑 或 概念 设计 ) 是 由 数据 管理 员 来 负责 的 。 而 DBMS 负责 执 
行 用 户 的 数据 定义 语言 和 数据 操纵 语言 的 请 求 。DBMS 也 负责 提供 某 些 数据 字典 的 功能 。 

数据 库 系统 也 可 以 由 一 台 服 务 器 (DBMS) 和 一 组 客户 机 (应 用 程序 ) 来 构成 。 客 户 机 和 和 
服务 器 能 够 在 不 同 的 机 器 上 运行 ， 这 样 提 供 了 一 种 分 布 式 处理 。 一 般 地 讲 ， 每 台 服 务 器 能 为 几 台 
客户 机 提供 服务 ， 而 每 台 客 户 机 也 可 以 访问 多 个 服务 器 。 如 果 系 统 提 供 完全 透明 的 访问 〈 也 就 
是 每 台 客 户 机 就 好 像 在 单机 的 单个 服务 器 上 操作 ， 而 不 考虑 物理 连接 状态 ) ， 那 么 就 真正 实现 了 
分 布 式 数据 库 系 统 。 





习题 
2.1 画 出 本 章 的 数据 库 系统 体系 结构 图 (ANSISPARC 体系 结构 ) 。 
2.2 解释 下 列 术 语 : 
后 端 客户 机 概念 DDL， 概 念 模式 ， 概 念 视 图 
概念 模式 /内 模式 映像 数据 定义 语言 数据 字典 
数据 操纵 语言 数据 子 语言 数据 库 / 数 据 通信 系统 
数据 通信 管理 器 分 布 式 数 据 库 分 布 式 处 理 


外 部 DDL， 外 模式 ， 外 部 视图 外 模式 /概念 模式 映像 前 端 
主语 言 载 人 数据 库 的 逻辑 设计 
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划一 亏 分 寺 础 知识 
内 部 DDL， 内 模式 ， 内 部 视图 数据 库 的 物理 设计 计划 的 请 求 
重组 织 服务 器 存储 数据 库 定义 
印 载 / 重 载 非 计 划 的 请 求 用 户 接口 
实用 程序 
描述 检索 一 个 特定 的 外 部 记录 值 的 步骤 。 


2.3 
2.4 
2.5 
2.6 


列 出 DBMS 的 主要 功能 。 
区 分 数据 的 物理 独立 性 和 逻辑 独立 性 的 差别 。 
如 何 理 解 元 数据 ? 


2.7 列 出 DBA 的 主要 职能 。 


2.8 
2.9 


区 分 DBMS 和 文件 管理 系统 的 差别 。 
给 出 几 个 厂商 提供 的 工具 的 例子 。 


2.10 给 出 数据 库 的 实用 程序 的 几 个 例子 。 


2.11 


观察 一 个 数据 库 系 统 。 试 用 本 章 描述 的 ANSL/SPARC 体系 结构 来 看 系统 。 它 明显 地 支持 三 层 体系 结 
构 吗 ? 层 之 间 的 映像 是 如 何 定义 的 ? 各 种 数据 定义 语言 (外 部 的 ， 概 念 的 ， 内 部 的 ) 的 功能 是 什 
么 ?系统 支持 什么 数据 子 语言 ? 主语 言 是 什么 ? 谁 履行 DBA 的 职能 ?有 安全 性 和 完整 性 机 制 吗 ?有 
字典 吗 ? 字典 是 自 描述 的 吗 ? 系统 支持 什么 厂商 提供 的 应 用 程序 ? 什么 实用 程序 ? 有 没有 独立 的 数 
据 通 信 管理 器 ? 有 没有 分 布 式 处 理 的 能 力 ? 
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GAMP 表示 通用 多 层 访 问 路 径 。 文 章 的 作者 注意 到 今天 的 数据 库 产品 “强迫 用 户 使 用 与 物理 
结构 紧密 联系 的 逻辑 模式 形式 的 查询 ”， 因 此 数据 的 物理 独立 性 非常 差 。 在 文章 中 ， 他 们 提出 一 种 
概念 模式 /内 模式 间 的 映像 语言 ， 可 用 于 说 明 比 今天 的 产品 所 支持 的 多 得 多 的 映像 。 指 定 一 个 “还 
辑 模式 ”， 该 语言 (基于 关系 代数 ， 见 第 7 章 ， 其 本 质 上 是 说 明 性 的 ， 而 非 过 程 性 的 ) 允许 许多 不 
同 的 物理 〈 或 内 部 ) 模式 的 说 明 ， 它 们 多 来 自 于 这 辑 模式 。 物 理 模 式 包括 垂直 的 和 水 平 的 部 分 
( 见 第 21 章 ) 、 任 意 数量 的 物理 访问 路 径 、 聚 集 和 控制 的 元 余 。 

这 篇 论文 还 给 出 了 一 个 算法 ， 该 算法 将 用 户 对 逻辑 模式 的 操作 转化 为 等 价 的 对 物理 模式 的 操 
作 。 一 个 原型 系统 显示 ， 数 据 库 管理 员 能 调整 物理 模式 以 获得 比 通常 更 好 的 性 能 。 





第 3 章 ”关系 数据 库 简介 


3.1 引言 


在 第 1 章 中 已 经 介绍 过 ， 本 书 的 重点 在 于 关系 系统 。 特 别 是 第 二 部 分 比较 深入 地 阐述 了 这 些 
系统 (关系 模型 ) 的 理论 基础 。 为 了 更 好 地 理解 本 书 随后 部 分 的 内 容 ， 本章 对 第 二 部 分 的 内 容 
(附带 随后 的 部 分 ) 做 一 个 直观 、 非 正式 的 介绍 。 本 章 所 述 的 多 数论 题 将 在 后 面 章节 更 详细 、 更 
正式 地 讨论 。 

3.2 关系 模型 概述 


在 第 1 章 中 已 经 介绍 过 ， 关 系 系统 基于 正规 的 关系 基础 或 理论 ， 即 关系 数据 模型 。 我 们 经 常 
从 以 下 三 个 方面 来 描述 关系 模型 : 
se 结构 化 方面 : 数据 库 中 的 数据 对 用 户 来 说 是 


表 ， 并 且 只 是 表 。 pEPT | DEPT | DRAE | pupeer 
® 完整 性 方面 : 数据 库 中 的 这 些 表 满 足 一 定 的 完 bare cpnant 

整 性 约束 (在 本 节 最 后 讨论 )。 Research 

= 操纵 性 方面 : 用 户 可 以 使 用 用 于 表 操作 的 操作 

符 一 一 例如 ， 为 了 检索 数据 ， 需 要 使 用 从 一 个 | 

表 导 出 另 一 个 表 的 操作 符 。 其 中 ， 选 择 、 投 影 cheng | D1 


和 连接 这 三 种 操作 符 尤为 重要 。 sieo | 2 
图 3-1 中 显示 的 是 一 个 简单 的 关系 数据 库 ， 即 部 门 
和 雇员 数据 库 。 正 像 你 所 看 到 的 ， 数 据 库 给 人 的 感觉 就 。 图 3-1 部 门 和 雇员 数据 库 (样本 值 ) 
是 一 张 张 的 表 (这 些 表 的 含义 是 不 言 而 喻 的 ) 。 图 3-2 
中 显示 了 对 图 3-1 中 数据 库 的 选择 (restrict) 、 投 影 和 连接 操作 。 下 面 给 出 这 些 操作 的 定义 : 
a 选择 操作 是 从 表 中 提取 特定 的 几 行 。 注 意 ; restrict 操作 有 时 也 称 作 选择 操作 ， 这 里 用 re- 
strict 这 个 词 ， 因 为 这 个 操作 和 SQL 中 的 SELECT 操作 不 同 。 
m 投影 操作 是 从 表 中 提取 特定 的 几 列 。 
a 连接 操作 是 根据 某 一 列 的 值 将 两 个 表 连 接 起 来 。 





Restrict: 


Project: 


DEPTs over DEPT#, BUDGET 


Join: 


DEPTs and EMPs over DEPT# 


Marketing 10M | El 
Marketing 10M | E2 
Development 12M | E3 
Development. 12M | E4 


图 3-2 选择、 投影 和 连接 (例子 ) 
在 图 3-2 的 三 个 例子 中 ， 最 后 一 个 关于 连接 的 例子 需要 进一步 解释 。 先 观察 到 DEPT 和 EMP 
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两 个 表 都 有 一 个 共同 的 列 DEPT#， 因 此 它们 可 以 根据 这 一 列 的 相同 值 连接 起 来 。 当 且 仅 当 两 个 
表 中 对 应 行 的 DEPT# 值 相同 时 ，DEPT 表 的 一 行 才能 连接 EMP 表 中 对 应 的 一 行 (产生 结果 表 的 
一 行 ) 。 例 如 ，DEPT 和 EMP 行 


EECIEZ A 


连接 起 来 产生 如 下 的 结果 行 : 


EZ EL CE 
D1 Marketing 10M El |iopez | 4oK | 


因为 在 公共 列 它们 有 相同 的 值 DI。 注意 在 结果 行 中 相同 的 值 只 出 现 一 次 。 连 接 的 结果 包含 了 所 
有 可 能 以 这 种 方式 得 到 的 行 。 尤 其 注意 尽管 在 DEPT 表 中 有 D3 一 行 , 但 因为 EMP 表 中 没有 
DEPT# 值 为 D3 的 行 ， 结 果 中 就 没有 出 现 D3 行 。 
现在 ,图 3-2 中 清楚 地 显示 出 三 种 操作 的 每 个 结果 都 是 一 个 表 (如 前 所 述 ， 实际 上 是 从 一 个 
表 导 出 另 一 个 表 的 操作 ) 。 这 是 关系 系统 的 闭 包 特性 ， 这 一 特性 非常 重要 。 基 本 上 ， 因 为 任何 操 
作 的 输出 和 其 输入 的 对 象 种 类 相同 (它们 都 是 表 ) ， 所 以 一 个 操作 的 输出 能 变 成 另 一 个 的 输入 。 
因此 ， 可 以 采取 如 连接 的 投影 、 两 个 选择 后 的 连接 或 一 个 投影 的 选择 等 操作 。 即 我 们 可 以 编写 红 
套 的 关系 表达 式 来 处 理 数据 一 一 操作 数 本 身 也 是 由 一 个 关系 表达 式 来 表示 的 ， 而 不 仅仅 是 一 个 表 
名 。 这 样 随 之 而 来 又 有 许多 重要 结论 ， 在 本 章 后 面 及 后 面 的 许多 章 中 会 介绍 。 
顺便 提 一 下 ， 当 提 到 一 个 操作 的 输出 是 另 一 个 表 时 ， 要 知道 这 是 从 概念 视图 的 角度 来 说 的 ， 
这 一 点 非常 重要 。 这 并 不 是 意味 着 系统 实际 上 必须 将 每 个 单独 操作 的 结果 实例 化 >”。 例 如， 假设 
要 计算 一 个 连接 的 选择 那么， 连接 后 的 行 一 形成 ， 系 统 就 立即 检查 该 行 是 否 满足 指定 的 条 件 ， 
以 判定 是 否 属于 最 终结 果 ， 如 果 不 是 就 立即 抛弃 。 也 就 是 说 ， 连 接 操作 的 中 间 结 果 根 本 不 会 以 完 
整 的 实例 表 形式 存在 。 在 实际 操作 中 ， 通 常 为 了 提高 效率 ， 系 统 尽 可 能 不 将 中 间 结 果 生 成 完整 的 
表 。 注 意 : 如 果 中 间 结 果 全 部 实例 化 ， 整 个 表达 式 的 计算 策略 就 是 实例 化 的 计算 ; 如 果 中 间 结 果 
分 块 地 提供 给 下 一 步 操作 ， 就 称 作 流水 线 计 算 。 
图 3-2 中 还 清楚 地 说 明了 一 点 : 操作 是 一 次 一 集合 ， 而 不 是 一 次 一 行 ; 也 就 是 说 ， 操 作 数 和 结 
果 是 完整 的 表 ， 而 不 只 是 单行 ， 是 包含 行 集 的 表 。 ( 当然 ， 只 包含 一 行 的 表 是 合法 的 ; 空 表 ， 即 根 
本 不 包含 任何 行 的 表 也 是 合法 的 .) 例如 ， 在 图 3-2 中 ， 分 别 对 两 个 表 对 应 的 3 行 和 4 行 的 连接 操 
作 ， 就 返回 一 个 4 行 的 结果 表 。 相 应 地 ， 非 关系 系统 中 典型 的 操作 是 一 次 一 行 或 一 次 一 记录 ; 因 
此 ， 集 合 处 理 能 力 是 关系 系统 区 别 于 其 他 系统 的 一 个 重要 特征 ( 见 下 面 3. 5 节 进 一 步 的 讨论 ) 。 
再 回 到 图 3-1。 结 合 图 中 的 样本 数据 库 ， 还 可 以 得 出 以 下 两 点 : 
m 关系 系统 要 求 只 让 用 户 所 感觉 的 数据 库 是 一 张 张 表 。 在 关系 系统 中 ， 表 是 逻辑 结构 而 不 是 
物理 结构 。 实 际 上 ， 系 统 在 物理 层 可 以 使 用 它 所 喜欢 的 方式 来 存储 数据 一 一 使 用 有 序 文 
件 、 索 引 、 散 列 、 指 针 链 、 压 缩 ， 等 等 一 一 只 要 能 将 存储 表示 映射 到 逻辑 模式 的 表 。 换 句 
话说 ， 表 是 对 物理 存储 数据 的 一 种 抽象 表示 一 一 对 许多 存储 细节 的 抽象 ， 如 存储 记录 的 位 
置 、 存 储 记录 顺序 、 存 储 数 据 值 的 表示 、 存 储 记 录 的 前 级 、 存 储 的 访问 结构 如 索引 ， 等 
等 ， 对 用 户 来 说 都 是 不 可 见 的 。 
此 外 ， 在 ANSL/SPARC 中 ， 前 述 的 逻辑 结构 一 词 意味 着 包含 概念 模式 和 外 模式 。 关 
键 是 一 一 如 第 2 章 中 所 述 一 一 概念 模式 和 外 模式 都 是 关系 的 ， 而 物理 模式 和 内 模式 不 是 。 
关系 理论 与 内 模式 毫 无 关系 ， 它 只 是 考虑 数据 库 应 怎样 呈现 给 用 户 ” 。 关 系 系统 唯一 的 要 

















”换言之 ,在 第 1 章 已 经 提 过 ， 关 系 模型 实际 上 只 是 一 个 模型 一 一 它 与 实现 并 无 关系 。 

@@ “不幸 的 是 ， 今 天 大 部 分 的 SQL 产品 并 不 能 有 效 地 支持 这 方面 的 理论 。 更 具体 一 些 ， 它 们 只 支持 受 限 的 概念 /内 
部 映射 。 它 们 将 一 个 逻辑 表 直接 映射 成 一 个 存储 文件 。 这 就 是 这 些 产品 并 不 能 支持 像 关 系 理论 所 描述 的 那样 完 
整 的 数据 独立 性 的 原因 。 可 以 参考 附录 A 中 进一步 的 讨论 。 
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求 是 无 论 选 择 什么 物理 结构 ， 一 定 要 全 部 实现 其 逻辑 结构 。 
关系 数据 库 遵守 一 条 非常 好 的 原则 ， 即 信息 原则 : 数据 库 全 部 的 信息 内 容 有 一 种 表示 方式 
而 且 只 有 一 种 ， 也 就 是 表 中 的 行列 位 置 有 明确 的 值 。 这 种 表示 是 关系 系统 中 唯一 可 行 的 方 
式 (当然 ， 在 逻辑 层 ) 。 特 别 地 ， 没 有 连接 一 个 表 到 另 一 个 表 的 指针 。 在 图 3-1 中 ， 例 如 ， 
表 DEPT 中 的 D1 行 和 表 EMP 的 El 行 有 联系 ， 因 为 雇员 El 在 部 门 D1 工作 ; 但 是 这 种 联 
系 不 是 通过 指针 来 表示 的 ， 而 是 通过 表 EMP 的 El 行 中 DEPT# 列 的 值 为 D1 来 联系 的 。 相 
反 地 ， 在 非 关 系 系统 中 ， 这 些 信息 典型 地 由 指针 来 表示 ， 这 种 指针 对 用 户 来 说 是 可 见 的 。 
注意 : 我 们 将 在 第 26 章 解释 ， 为 什么 允许 这 种 用 户 可 见 的 指针 会 违反 信息 原则 。 
当 指 出 关系 数据 库 中 没有 指针 时 ， 并 不 是 指 在 物理 层 没 有 指针 一 一 正好 相反 ， 关 系数 据 
库 在 物理 层 使 用 指针 ， 但 在 关系 系统 中 ， 所 有 物理 存储 的 细节 对 用 户 来 说 都 是 不 可 见 
的 。 

对 关系 模型 的 结构 和 操纵 方面 就 提 这 些 ; 现在 来 看 完整 性 方面 。 观 察 图 3-1 中 的 部 门 和 雇员 
数据 库 。 事 实 上 ， 可 以 要 求 数据 库 满足 任何 条 件 的 完整 性 约束 一 一 如 雇员 工资 必须 在 25K ~95K 
的 范围 ， 部 门 预算 在 1M ~ 15M， 等 等 。 某 些 约束 在 应 用 上 非常 重要 ,它们 喜欢 用 特定 的 术语 。 
具体 来 说 : 

1) DEPT 表 中 每 一 行 的 DEPT# 值 必须 是 唯一 的 ; 同时 ，EMP 表 中 每 一 行 的 EMP# 值 必须 唯 
一 。DEPT 表 中 的 DEPT# 列 和 EMP 表 中 的 EMP# 列 都 是 它们 各 自 表 的 主 码 。( 回 忆 第 1 章 , 在 图 
中 主 码 是 用 双 下 划 线 标 出 来 的 。) 

2) EMP 表 中 的 每 个 DEPT# 值 必须 在 DEPT 表 中 存在 ， 以 反映 每 个 雇员 必须 安排 在 现 有 的 部 
门 中 。 即 EMP 表 中 的 DEPT# 列 是 外 码 ， 参 照 了 DEPT 表 的 主 码 。 


更 正式 的 定义 


现在 我 们 给 出 一 个 更 正式 的 关系 模型 的 定义 来 结束 这 一 节 ， 以 便于 后 面 参照 (尽管 该 定义 
十 分 抽象 ， 且 目前 非常 难 理解 )。 简 而 言 之 ， 关 系 模型 包括 下 列 5 部 分 : 

9 一 个 可 扩展 的 标量 类 型 的 集合 (尤其 包括 布尔 型 或 真 值 型 ) ; 

ms 关系 类 型 生成 子 和 对 应 这 些 关系 类 型 的 解释 器 ; 

m 实用 程序 ， 用 于 定义 生成 关系 类 型 的 关系 变量 ; 

a 向 关系 变量 赋 关 系 值 的 关系 赋值 操作 ; 

a 从 其 他 关系 值 中 产生 关系 值 的 、 可 扩充 的 关系 操作 符 集合 〈 关 系 代数 ) 。 

由 此 可 见 ， 关 系 模型 要 比 “ 表 加 上 选择 、 投 影 和 连接 ”多 得 多 ， 尽 管 关系 模型 常常 以 此 为 
特征 。 

另外 ， 你 可 能 会 惊讶 于 没有 对 完整 性 约束 进行 明确 的 定义 。 事 实 上 这 些 约束 表示 的 只 是 关系 
操作 符 的 一 个 应 用 ; 即 这 些 约束 是 由 操作 符 来 表达 的 ， 详 见 第 9 章 。 


3.3 关系 和 关系 变量 


如 果 关 系数 据 库 只 是 一 个 用 表 来 表示 数据 的 数据 库 一 一 当然 这 是 真 的 一 一 那么 问题 是 : 为 什 

么 称 这 样 的 数据 库 是 关系 的 ? 答案 很 简单 (这 在 第 1 章 已 经 提 到 )， “关系 ”只 是 表 的 数学 术 

语 一 一 精确 地 说 ， 是 某 特殊 种 类 的 表 (细节 见 第 6 章 )。 因 此 我 们 可 以 说 ,图 3-1 中 的 部 门 和 雇 
员 数 据 库 包含 了 两 个 关系 。 

在 非 正式 的 情况 下 ， 经 常 将 “关系 ”和 “ 表 ” 作 为 同义词 ， 并 且 “ 表 ”一 词 比 “关系 ”一 词 

更 常用 。 但 是 花 点 时 间 去 理解 为 什么 首先 介绍 “关系 ”这 个 词 是 值得 的 。 简 单 地 说 ， 有 如 下 原因 : 

@ 关系 系统 基于 关系 模型 ， 反 过 来 关系 模型 又 是 基于 数学 方面 的 数据 抽象 理论 〈 主要 是 集 
合 论 和 谓词 逻辑 ) 。 

a 关系 模型 理论 是 E. F. Codd 在 1969 年 到 1970 年 提出 的 ， 当 时 他 是 IBM 的 研究 员 。1968 年 

末 ， 数 学 家 Codd 首先 意识 到 数学 可 以 向 数据 管理 领域 提供 坚实 的 理论 和 严密 的 逻辑 ， 在 

那 之 前 ， 数 据 管理 领域 太 缺 乏 这 些 理论 的 支持 。Codd 的 想法 首先 在 一 篇 经 典 的 论文 中 
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提出 ， 即 “A Relational Model of Data for Large Shared Data Banks” (参见 第 6 章 中 文献 
[6.1] )。 

a 从 那 时 起 ， 那 些 思 想 一 一 至 今 几 乎 全 世界 都 接受 了 一 一 就 在 数据 库 技术 的 各 个 方面 产生 了 
广泛 的 影响 。 同 样 在 其 他 领域 ， 如 人 工 智 能 、 自 然 语言 处 理 和 硬件 设计 等 领域 也 产生 了 广 
泛 的 影响 。 

日前 ， 最 初 由 Codd 建立 的 关系 模型 特意 采用 了 这 些 术语 ， 如 关系 这 个 词 本 身 ， 当 时 在 信息 
技术 界 还 不 是 很 流行 (尽管 有 时 候 较 常见 ) 。 问 题 是 ， 许 多 常用 的 术语 很 模糊 一 一 它们 缺乏 精确 
性 ， 而 精确 性 对 Codd 所 提出 的 形式 理论 是 很 必要 的 。 例 如 ,“ 记 录 ” 这 个 词 ， 不 同情 况 下 ,“ 记 
录 ” 可 以 表示 记录 值 或 记录 型 ， 逻 辑 记录 或 物理 记录 ， 存 储 记 录 或 虚 记 录 ， 还 可 以 有 其 他 的 表 
示 。 因 此 ， 关 系 模型 不 使 用 记录 这 一 词 ， 而 用 “元 组 ”来 进行 精确 的 定义 。 我 们 将 在 第 6 章 给 
出 定义 的 细节 的 讨论 。 目 前 可 以 说 “元 组 ”这 个 词 近似 地 对 应 一 行 的 概念 (就 像 “关系 ”这 个 
词 近似 地 对 应 一 个 表 的 概念 ) 。 

同样 的 ， 关 系 模 型 中 并 不 使 用 “ 域 ”这 个 词 ， 而 用 “属性 ”， 目 前 来 说 它 就 相当 于 一 个 表 中 
的 一 列 。 

当 在 第 二 部 分 进一步 讨论 关系 系统 时 ,将 利用 这 些 正式 术语 ,但 是 本 章 只 进行 非 正式 的 
介绍 。 我 们 将 继续 使 用 像 “ 行 ”或 “ 列 ” 这 些 相当 常见 的 词 ， 不 过 以 后 还 会 使 用 “关系 ”这 
个 词 。 

再 回 到 图 3-1 中 的 部 门 和 雇员 数据 库 来 看 另外 一 个 重点 。 实 际 上 ， 数 据 库 中 的 DEPT 和 EMP 
是 关系 变量 ， 即 它们 的 值 是 关系 值 (不 同 的 时 候 是 不 同 的 值 ) 。 例 如 ， 假 定 EMP 中 的 值 如 图 3-1 
所 示 ， 并 假定 删除 Saito 这 一 行 (雇员 号 为 E4): 


DELETE EMP WHERE EMP# = EMP# ('E4') ; 


结果 如 图 3-3 所 示 。 
从 概念 上 说 ， 以 上 就 是 EMP 旧 的 关系 值 被 一 个 


新 的 关系 值 所 代替 。 当 然 旧 值 (4 行 ) 和 新 值 (3 | SNE DE SA 
行 ) 很 相似 ， 但 是 从 概念 上 说 ， 这 两 者 是 不 同 的 值 。| 。 | 一 | Sheng | 9 4 


确实 ， 删 除 操作 可 以 简化 为 一 个 关系 赋值 操作 ， 
如 下 : 图 3-3 删除 B4 行 后 的 关系 变量 EMP 


EMP := EMP WHERE NOT ( EMP# = EMP# ('E4') ); 


与 所 有 的 赋值 操作 一 样 ， 这 就 是 先 计算 表达 式 的 右边 ; 然后 把 计算 结果 赋 给 左边 的 变量 
( 当然 ， 根 据 定义 ， 左 边 必须 是 特定 的 变量 ) 。 如 上 所 述 ， 最 后 结果 就 是 用 一 个 “新 ”的 EMP 代 
替 “ 旧 ”的 EMP。( 注 意 : 原来 的 删除 和 相应 的 赋值 语句 都 是 用 一 种 称 为 Tutorial D 的 语言 来 表 
示 ，DELETE 操作 和 赋值 操作 都 可 以 用 这 种 语言 表达 。) 

当然 ， 通 过 类 似 的 方式 ， 关 系 INSERT 和 UPDATE 操作 也 可 以 简化 为 特定 的 关系 赋值 操作 。 
详 见 第 6 章 。 

目前 ， 遗 性 的 是 ， 许 多 文献 用 “关系 ”这 个 词 时 ， 表 达 的 意思 却 是 关系 变量 的 含义 〈 在 表 
示 关 系 时 ， 其 含义 为 关系 值 ) 。 虽 然 这 是 历史 造成 的 ， 但 这 必然 导致 了 概念 上 的 混淆 。 因 此 ， 贯 
穿 本 书 ， 我 们 将 从 本 质 上 仔细 区 分 “关系 ”和 “关系 变量 ”这 两 个 词 。 根 据 参 考 文献 [3.3]， 
我 们 将 使 用 “relvar” 作 为 relational variables 的 简写 ,而且 还 要 注意 ， 当 实际 含义 是 关系 变量 
时 ， 用 “relvar” 而 不 用 关系 来 表示 ?2 。 请 注意 ， 从 这 里 开始 我 们 将 使 用 没有 限制 的 “关系 ”这 
个 词 表示 一 个 特定 的 关系 值 (就 像 我 们 用 “整数 ”这 个 词 表示 一 个 特定 的 整数 值 )。 当 然 我 们 也 
会 偶尔 使 用 “关系 值 ”这 个 词 来 强调 。 

注意 : 提醒 大 家 ， “relvar” 一 词 并 不 常用 -一 -但 应 该 常用 ! 我 们 深切 感到 清楚 地 区 分 关系 本 








G 关系 值 和 关系 变量 的 区 别 只 是 值 和 变量 之 间 的 区 别 的 一 个 特例 。 我 们 将 在 第 5 章 深入 讨论 这 个 区 别 。 
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身 《〈 即 关系 值 ) 和 关系 变量 是 非常 重要 的 〈 尽 管 本 书 的 早期 版 本 并 未 如 此 ， 且 在 这 方面 日 前 的 
大 多 数 数 据 库 文献 也 未 能 给 予 重 视 ) 。 特 别 是 ， 在 第 6 章 和 第 9 章 中 ,更 新 操作 和 完整 性 约束 都 
是 针对 关系 变量 而 不 是 关系 。 


3.4 关系 的 含义 


第 1 章 中 提 到 关系 中 的 列 与 数据 类 型 (简称 为 类 型 ， 也 称 为 域 ) 有 关 。 在 3. 2 节 未 尾 ， 指 出 
关系 模型 包括 “可 扩充 的 [数据] 类 型 集 "。 这 意味 着 用 户 可 以 定义 自己 的 数据 类 型 ( 当然 ， 这 
和 使 用 系统 定义 的 类 型 或 内 建 的 类 型 一 样 )。 例 如 ， 可 以 定义 如 下 类 型 (Tutorial D 请 法 ;省略 
号 “…” 代 表 与 目前 所 讨论 的 问题 并 不 密切 相关 的 定义 部 分 ) : 

TYPE EMP# ... ; 

TYPE NAME ... ; 

TYPE DEPT# ... ; 

TYPE MONEY ... ; 

例如 ， 类 型 EMP# 作 为 所 有 可 能 的 雇员 号 的 集合 ; 类 型 NAME 作为 所 有 可 能 的 名 宁 的 集合 ， 
等 等 。 

图 3-4 基本 上 是 图 3-1 的 EMP 部 分 (扩展 了 列 的 数据 类 型 ) 。 如 图 所 示 ， 每 个 关系 一 一 更 确 
切 地 说 ， 每 个 关系 值 一 一 都 有 两 部 分 ， 一 组 “ 列 名 : 类 型 名 ”对 〈 列 标题 ) ， 以 及 符合 该 标题 的 
行 集 (主体 ) 。 注 意 : 实际 上 ， 就 像 前 面 所 举 的 例子 那样 ， 列 标题 的 类 型 名 部 分 经 常 省 略 ， 但 
是 ， 要 知道 在 概念 上 它们 是 存在 的 。 











EMP# : EMP# | ENAME : NAME | DEPT# : DEPT# | SALARY : MONEY 








Lopez Di 40K 
Cheng D1 42K 
Finzi D2 30K 
Saito D2 35K 














图 3-4 带 有 列 类 型 的 EMP 关系 值 示例 


对 “关系 ”还 有 一 种 重要 的 认识 方式 。 如 下 所 述 : 

1) 对 于 指定 的 关系 r， 关系 r 的 标题 表示 了 一 个 特定 的 谓词 (谓词 就 是 一 个 带 参 数 的 真 值 
琐 数 ) 。 

2) 如 第 1 章 简 要 说 明 的 , r 主体 中 的 每 一 行 都 表示 一 个 真 命题 ， 用 相应 类 型 的 参数 值 代替 
该 谓词 的 占 位 符 或 参数 型 来 得 到 这 个 谓词 (实例 化 为 谓词 ) 。 

例如 ， 在 图 3-4 中 ， 谓 词 如 下 ， 

雇员 EMP# 的 名 字 是 ENAME， 工 作 在 部 门 DEPT#， 所 得 工资 为 SALARY 。 

(参数 EMP#、ENAME 、DEPT# 和 SALARY 对 应 于 EMP 表 的 四 列 ) 。 相 应 的 真 命题 是 : 

雇员 El 的 名 字 是 Lopez， 工 作 在 部 门 D1 ， 所 得 工资 为 40K。 

(通过 用 EMP# 值 B1，NAME 值 Lopez，DEPT# 值 Di 和 MONEY 值 40K 替换 相应 的 参数 来 得 
到 ); 

雇员 E2 的 名 字 是 Cheng， 工 作 在 部 门 D1， 所 得 工资 为 42K。 

(通过 用 EMP# 值 E2 ，NAME 值 Cheng ，DEPT# 值 D1 和 MONEY 值 42K 替换 相应 的 参数 来 
得 到 ) ; 等 等 。 因 此 : 

em 类 型 是 所 讨论 的 事物 (的 集合 ) 。 

s 关系 是 关于 所 讨论 的 事物 的 事物 (的 集合 ) 。 

(这 里 有 一 个 类 比 可 以 帮助 大 家 来 理解 和 记 住 这 些 重要 的 结论 : 类 型 对 于 关系 就 像 名 词 对 于 
甸子 一 样 。) 在 上 述 例子 中 ， 我 们 所 讨论 的 事物 是 雇员 号 、 和 名 字 、 部 门 号 和 货币 值 ， 以 及 事务 ， 
这 些 是 真正 的 说 话 形式 ， 即 “指定 雇员 号 的 雇员 有 指定 的 名 字 ， 工 作 在 指定 的 部 门 ， 得 到 指定 
的 工资 ”。 

从 前 面 可 以 得 到 : 
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1) 类 型 和 关系 都 是 必要 的 (没有 类 型 ， 就 没什么 可 讨论 的 ; 没有 关系 ， 
论 的 )。 

2) 类 型 和 关系 不 仅 是 必需 的 ， 而且 是 充分 的 一 一 即 从 逻辑 上 说 ,我 们 不 再 需要 其 他 的 
东西 。 

3) 类 型 和 关系 不 是 一 回 事 。 遗 憾 的 是 ， 某 些 商业 产品 
将 这 一 点 混淆。 在 第 26 章 会 提 到 这 个 问题 ( 见 26.2 节 )。 

顺便 提 及 ， 要 知道 每 个 关系 都 有 一 个 相 联系 的 谓词 ， 包 括 那些 通过 如 连接 关系 操作 得 出 的 关 
系 ， 这 点 也 是 比较 重要 的 。 例 如 ， 图 3-1 中 的 关系 DEPT 和 图 3-2 中 的 三 个 结果 关系 有 如 下 几 个 


也 没什么 可 讨 





根据 定义 ， 不 是 关系 的 一 一 常常 





谓词 : 


DEPT:“ 部 门 DEPT# 的 名 字 为 DNAME， 预 算 为 BUDGET”。 


a 选择 BUDGET >8M 的 DEPT.“ 部 门 DEPT# 的 名 字 为 DNAME， 预 算 为 BUDGET， 预 算 大 


于 800 万 美元 ”。 


对 DEPT 的 DEPT# 和 BUDGET 投影 :“ 部 门 DEPT# 有 某 名 字 ， 且 预算 为 BUDGET”。 


ma DEPT 和 EMP 根据 DEPT# 的 连接 :“ 部 门 DEPT# 的 名 字 为 DNAME， 预 算 为 BUDGET, 而 
且 麻 员 EMP# 名 为 ENAME， 在 部 门 DEPT# 工 作 ， 所 得 工资 为 SALARY”。 注 意 ， 这 一 谓 
两 个 DEPT# 是 同一 个 参数 。 
最 后 ， 我 们 注意 到 关系 变量 也 有 谓词 ， 所 有 关系 的 谓词 是 关于 关系 变量 的 一 些 可 能 值 。 例 





词 有 6 个 参数 ， 而 不 是 7 个 


如 ， 关 系 变量 EMP 的 谓词 是 : 


名 为 ENAME， 在 部 门 DEPT# 工 作 ， 薪 水 为 SALARY 的 雇员 EMP#。 


3.5 优化 


如 3.2 节 所 述 ， 关 系 操 作 如 选择 、 投 影 和 连接 等 都 是 集合 操作 。 因 而 ， 关 系 语言 通常 称 为 非 


过 程 化 语言 ， 因 为 用 户 指出 是 什么 而 不 是 怎么 
做 一 一 即 他 们 只 说 想 要 什么 ， 而 不 说 出 如 何 得 
到 。 为 了 满足 用 户 需 求 而 对 存储 数据 的 导航 过 
程 是 由 系统 自动 进行 的 ， 而 不 用 用 户 手工 处 理 。 
因此 ， 有 时 称 关系 系统 实现 自动 导航 。 相 反 ， 
在 非 关系 系统 中 ， 导 航 一 般 由 用 户 负责 。 对 自 
动 导航 的 一 系列 优点 的 说 明 如 图 3-5 所 示 ， 该 
说 明 对 比 了 某 SQL INSERT 语句 和 用 户 在 非 关 
系 系统 (实际 上 是 一 个 CODASYL 网 状 系统 ; 
例子 来 自 参考 文献 [1.5] 的 关于 网 状 数据 库 
的 一 章 ) 中 要 实现 相应 操作 所 编写 的 “手工 导 
航 ” 代 码 。 注 意 : 这 里 的 数据 库 是 供应 商 和 堆 
件数 据 库 ， 参 见 3.9 节 的 进一步 阐述 。 

尽管 前 一 段 已 经 提 到 ， 这 里 还 要 强调 一 下 ， 
非 过 程 化 并 不 是 一 个 让 人 非常 满意 的 术语 ， 因 
为 过 程 化 和 非 过 程 化 并 不 是 绝对 的 。 最 好 的 提 
法 是 某 种 语言 4 比 另 一 种 语言 B 多 些 或 少 些 过 
程 化 。 或 许 更 好 的 表述 方式 为 :与 非 关系 语言 
相 比 ， 关 系 语言 是 在 更 高 层次 上 的 抽象 (如 图 
3-5 所 示 ) 。 本 质 上 ， 关 系 语 言 是 一 种 抽象 层次 
的 提升 ， 这 种 抽象 提高 了 关系 系统 的 生产 力 。 

如 何 实现 上 面 提 到 的 自动 导航 的 功能 是 
DBMS 的 -个 重要 组 成 部 分 一 优化 器 (在 第 
2 章 中 简要 介绍 过 ) 的 职责 。 换 名 话 说 ， 对 于 


INSERT INTO SP ( S#, P#, QTY ) 
VALUES ( 'S4', 'P3', 1000 )}; 


MOVE 'S4' TO S# IN S 
FIND CALC S 
ACCEPT S-SP-ADDR FROM S-SP CURRENCY 
FIND LAST SP WITHIN S~SP 
while SP found PERFORM 
ACCEPT S-SP-ADDR FROM S-SP CURRENCY 
FIND OWNER WITHIN P-SP 
GET P 
IF P# IN P< 'P3' 
leave loop 
END-IF 
FIND PRIOR SP WITHIN S-SP 
END-PERFORM 
MOVE '‘'P3' TO P# INR P 
FIND CALC P 
ACCEPT P-SP-ADDR FROM P-SP CURRENCY 
FIND LAST SP WITHIN P~SP 
while SP found PERFORM 
ACCEPT P-SP-ADDR FROM P-SP CURRENCY 
FIND OWNER WITHIN S~SP 
GET S 
IF S# IN S < 'S4° 


leave loop 
END-IF 
FIND PRIOR SP WITHIN P-SP 
END-PERFORM 
MOVE 1000 TO QTY IN SP 
FIND DB-KEY IS S-SP-ADDR 
FIND DB~-KEY IS P-~SP-ADDR 


STORE SP 
CONNECT SP TO S-SP 
CONNECT SP TO P-SP 


图 3-5 自动 与 手工 导航 
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用 户 的 每 个 关系 请 求 ， 优 化 器 的 工作 是 选择 一 个 更 高 效 的 方式 执行 这 一 请 求 。 举 个 例子 ， 我 们 假 
定 用 户 发 出 如 下 请 求 〈 采 用 Tutorial D ) : 


( EMP WHERE EMP# = EMP# ('E4') ) { SALARY } 


说 明 : 加 括号 (“EMP WHERE ...”) 中 的 式 子 表示 选择 关系 变量 EMP 中 满足 EMP# 行 为 E4 
的 当前 值 。 在 大 括号 (“SALARY”) 中 的 列 名 对 选择 的 结果 根据 SALARY 列 进行 投影 。 投 影 的 
结果 是 一 个 包括 雇员 E4 的 工资 的 单行 、 单 列 的 关系 。 注意， 例子 中 显然 利用 了 关系 闭 包 的 性 
质 一 一 其 中 写 了 一 个 典 套 的 关系 表达 式 ， 其 中 选择 的 输出 作为 投影 的 输入 。) 

日 前 ， 即 使 在 很 简单 的 例子 中 ， 也 可 能 至 少 有 两 种 执行 数据 访问 的 方式 : 

1) 通过 对 关系 变量 EMP 依 物理 顺序 扫描 ， 直 到 找到 所 要 的 数据 ; 

2) 如 果 在 EMP# 列 有 索引 一 一 EMP# 的 值 假定 是 唯一 的 ， 因 为 为 了 确保 瞧 一 性 ， 许 多 系统 实 
际 上 和 需要 索引 一 一 那么 ， 通 过 使 用 索引 直接 找到 所 要 的 数据 。 

优化 器 将 选择 采取 其 中 一 种 策略 。 更 一 般 地 ， 对 于 任何 一 个 给 定 的 请 求 ， 优 化 器 根据 如 下 考 
虑 来 选择 执行 请 求 的 策略 : 

sm 请 求 中 参照 了 哪些 关系 变量 

a 关系 变量 当前 的 数据 规模 

s 存在 什么 索引 

a 索引 的 选择 性 如 何 

s。 在 磁盘 上 数据 是 怎样 物理 聚集 的 

a 涉及 什么 样 的 关系 操作 
等 等 。 因 此 ， 用 户 只 需 说 明 他 们 想 要 什么 ， 而 不 用 管 怎样 得 到 数据 ; 获得 这 些 数据 的 访问 策略 是 
优化 器 来 选择 的 〈“ 自 动 导航 ”) 。 用 户 和 用 户 应 用 程序 独立 于 这 些 访问 策略 ， 如 果 要 得 到 物理 数 
据 的 独立 性 ， 这 一 点 显然 是 很 重要 的 。 

第 18 章 将 详细 阐述 优化 器 的 功能 。 


3.6 数据 字典 


第 2 章 中 已 经 所 到， 每 个 DBMS 必须 提供 目录 或 宇 典 功能 。 字 典 存 储 了 各 种 模式 〈 外 模式 、 
概念 模式 和 内 模式 ) 和 相应 的 映像 (外 模式 /概念 模式 的 有 映像， 概念 模式 /内 模式 的 映像 )。 换 句 
话说 ， 字 上 典 包括 了 对 系统 自身 有 用 的 各 种 对 象 的 细节 信息 (有 时 称 作 描述 信息 或 元 数据 ) 。 这 些 
对 象 包括 关系 变量 、 索 引 、 用 户 、 完 整 性 约束 、 安 全 性 约束 ， 等 等 。 描 述 信息 对 确保 系统 正确 工 
作 很 重要 。 例 如 ， 优 化 器 利用 索引 和 其 他 物理 存储 结构 的 字典 信息 ， 以 及 其 他 信息 来 帮助 决定 怎 
样 实现 用 户 的 请 求 〈 参 考 第 18 章 ) 。 同 样 地 ， 授 权 子 系统 首先 利用 用 户 和 安全 性 约束 的 字典 信 
息 来 准许 或 拒绝 这 些 请 求 (参考 第 17 章 ) 。 

关系 系统 的 优点 之 一 是 ， 在 系统 中 字典 本 身 就 是 由 关系 变量 (更 精确 地 说 应 为 系统 关系 变 
量 ， 这 样 称 呼 是 为 区 别 于 普通 用 户 的 关系 变量 ) 组 成 的 。 因 此 ， 用 户 能 够 像 访问 自己 的 数据 一 
样 访问 字典 。 例 如 ，SQL 系统 中 典型 的 字典 包括 TABLE 和 COLUMN 两 种 系统 关系 变量 ， 分 别 
描述 了 数据 库 中 的 表 ( 即 关系 变量 ) 和 表 中 的 列 。 对 于 图 3-1 中 的 部 门 和 雇员 数据 库 ，TABLE 
和 COLUMN 关系 变量 如 图 3-6 中 所 示 ?。 

注意 : 在 第 2 章 中 提 到 ， 字 上 典 通 常 应 该 是 自 描述 的 ， 即 它 包 括 描述 字典 关系 变量 自身 的 条 
日 。 见 本 章 末 尾 的 练习 3.3。 

假定 部 门 和 雇员 数据 库 的 一 些 用 户 想 要 确切 地 知道 关系 变量 DEPT 包含 哪些 列 (假定 由 于 某 
种 原因 ， 用 户 不 知道 该 信息 ) 。 那 么 用 如 下 表达 式 可 实现 此 任务 : 


( COLUMN WHERE TABNAME = ‘DEPT' ) { COLNAME } 





GG 注意 在 图 3-6 中 的 ROWCOUNT 列 ， 对 数据 库 的 插入 和 删除 操作 同时 也 更 新 了 数据 字典 。 在 实际 操作 时 ，ROW- 
COUNT 可 能 按照 用 户 的 要 求 被 更 新 ， 因 此 这 一 列 的 值 未 必 总 是 当前 的 。 
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下 面 是 男 一 个 例子 :“ 哪 一 个 关系 变量 包含 了 名 为 EMP# 的 列 ?” 


( COLUMN WHERE COLNAME = 'EMP#' ) { TABNAME } 
练习 : 下 面 语句 的 执行 结果 是 什么 ? 


( ( TABLE JOIN COLUMN ) 
WHERE COLCOUNT < 5 ) { TABNAME, COLNAME } 





图 3-6 ”部门 和 雇员 数据 库 的 字典 (略图 ) 


3.7 基本 关系 变量 和 视图 


我 们 已 知 ， 从 一 组 关系 变量 如 DEPT 和 EMP， 以 及 一 组 关系 变量 的 关系 值 开始 ， 通 过 关系 
表达 式 可 以 从 指定 的 关系 值 来 得 到 其 他 的 关系 值 。 我 们 再 介绍 一 些 术语 ， 源 〈 指 定 的 ) 关系 变 
量 称 为 基本 关系 变量 ， 而 它们 的 关系 值 称 为 基本 关系 ; 通过 某 关 系 表达 式 从 基本 关系 中 得 出 的 、 
或 能 够 得 出 的 关系 称 为 导出 关系 或 可 导出 关系 。 注 : 在 参考 文献 [3.3] 中 ， 基 本 关系 变量 又 称 
为 实 关系 变量 。 

首先 ， 关系 系统 必须 提供 创建 基本 关系 变量 的 方法 。 例 如 ， 在 SQL 中 , 这 一 任务 是 由 CRE- 
ATE TABLE 语句 来 执行 的 (很 明显 ， 这 里 的 “TABLE” 是 基本 关系 变量 , 或 SQL 中 的 基本 
表 ) 。 显 然 ， 基 本 关系 变量 必须 是 已 命名 的 一 一 例如 : 


CREATE TABLE EMP ... ; 


但 是 ， 关 系 系统 通常 也 支持 另 一 种 命名 的 关系 变量 一 一 视图 ， 在 任何 指定 的 时 候 ， 它 的 值 都 
是 导出 的 关系 ( 因此， 视图 也 可 以 当 作 导 出 的 关系 变量 ) 。 在 指定 时 刻 ， 指 定 视 图 的 值 是 当时 关 
系 表达 式 的 计算 结果 ; 关系 表达 式 在 创建 视图 时 是 确定 的 。 例 如 ， 语 句 


CREATE VIEW TOPEMP AS 
( EMP WHERE SALARY > 33K ) { EMP#; ENAME, SALARY } ; 

可 用 于 定义 名 为 TOPEMP 的 视图 。 ( 注 : 为 了 方便 ,例子 用 SQL 和 Tutorial D 的 混合 形式 来 
表示 。) 

当 语句 执行 时 ，AS 之 后 的 关系 表达 式 一 一 
视图 定义 表达 式 一 一 没有 计算 ， 只 是 系统 以 某 种 RE 
方式 保存 下 来 (实际 上 ， 把 它 保 存在 字典 中 ， 在 ee ed 
名 字 TOPEMP 之 下 ) 。 但 是 ， 对 用 户 来 说 ， 好 像 | | 
在 数据 库 中 真正 存在 名 为 TOPEMP 的 关系 变量 ， 5 
而 且 在 图 3-7 中 的 非 阴 影 部 分 是 它 的 当前 值 。 用 


see 
户 能 够 像 操 纵 基 本 关系 一 样 操纵 视图 。 注 : 如 果 图 3-7 EMP 的 视图 TOPEMP ( 非 阴影 部 分 ) 
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(如 前 所 述 ) DEPT 和 EMP 被 当 作 实 关系 变量 ， 则 TOPEMP 就 被 当 作 虚 关 系 变量 一 一 即 关系 变 
量 看 起 来 以 自身 的 形式 存在 ， 但 实际 上 并 不 是 〈 在 任何 特定 时 候 ， 它 的 值 依赖 于 其 他 特定 的 关 
系 变量 ) 。 参 见 [3.3]。 

注意 : 尽管 说 TOPEMP 的 值 是 关系 ， 该 关系 是 计算 视图 定义 表达 式 而 得 到 的 结果 ,但 是 它 
并 不 表示 现在 有 了 一 份 独立 的 数据 副本 ; 也 就 是 说 ， 不 表示 真 的 计算 了 视图 定义 表达 式 。 相 反 ， 
视图 只 是 它 所 依赖 的 基本 关系 变量 EMP 的 一 个 窗口 。 结 果 ， 任何 基本 关系 变量 的 改变 都 可 通过 
窗口 自动 地 看 到 ( 当然 ， 假 定 改 变 在 非 阴影 部 分 ) 。 同 样 ，TOPEMP 的 改变 也 会 自动 地 同时 反映 
到 关系 变量 EMP 上 ( 见 后 面 的 例子 ) 。 

以 下 是 一 个 对 视图 TOPEMP 的 检索 操作 的 例子 : 


( TOPEMP WHERE SALARY < 42K ) { EMP#, SALARY } 


对 图 3-7 中 的 样本 数据 ， 结 果 如 下 : 


从 概念 上 讲 ， 对 视图 的 操作 〈 如 前 面 提 到 的 检索 操作 ) 是 通过 替换 视图 名 所 对 应 的 视图 定 
义 表达 式 〈 保 存在 目录 中 的 表达 式 ) 来 处 理 的 。 因 此 ， 例 子 中 的 原 表达 式 


{ TOPEMP WHERE SALARY < 42K ) { EMP#, SALARY } - 


被 系统 替换 为 


( ( { EMP WHERE SALARY > 33K ) { EMP#, ENAME, SALARY } ) 
WHERE SALARY < 42K ) { EMP#, SALARY } 


(把 原 表达 式 中 的 视图 名 用 斜体 表示 ， 改 变 的 代替 部 分 也 用 斜体 表示 ) ， 替 换 后 的 表达 式 可 以 简 
化 为 


( EMP WHERE SALARY > 33K RND SALARY < 42K ) { EMP#, SALARY } 


( 见 第 18 章 ) ， 对 此 计算 后 就 得 到 前 面 的 结果 。 换 句 话说， 对 视图 的 操作 其 实 是 转变 为 对 基本 关 
系 变量 的 等 价 操作 ， 等 价 操作 以 正常 的 方式 执行 〈 更 确切 地 说 ， 以 正常 的 方式 优化 并 执行 ) 。 
再 举 另 一 个 例子 ， 考 虑 如 下 的 DELETE 操作 


DELETE TOPEMP WHERE SALARY < 42K ; 


实际 执行 的 DELETE 是 如 下 的 : 


DELETE EMP WHERE SALARY > 33K AND SALARY < 42K ; 


当前 ， 视 图 TOPEMP 非常 简单 ， 只 包含 了 一 个 基本 关系 变量 的 一 个 行列 子 集 。 但 是 ,理论 
上 ， 视 图 定义 可 以 是 任意 复杂 的 〈 甚 至 可 以 参照 其 他 视图 ) ， 因 为 实质 上 它 只 是 一 个 命名 的 关系 
表达 式 。 例 如 ， 下 面 的 视图 涉及 了 两 个 基本 关系 变量 的 连接 : 


CREATE VIEW JOINEX AS 
{ ( EMP JOIN DEPT ) WHERE BUDGET > 7M ) { EMP#, DEPT# } ; 


我 们 将 在 第 10 章 详细 讨论 视图 定义 和 处 理 的 问题 。 

在 此 ， 我 们 顺便 解释 一 下 2. 2 节 末尾 的 评论 ， 大 意 是 “视图 ”在 关系 范畴 中 有 一 个 特定 的 
含义 ， 和 在 ANSL/SPARC 体系 结构 中 所 述 的 含义 不 尽 相同 。 在 该 体系 的 外 模式 ， 通 过 外 部 视图 
观察 数据 库 ， 由 外 模式 来 定义 外 部 视图 (不 同 的 用 户 有 不 同 的 外 部 视图 ) 。 相 反 ， 在 关系 系统 
中 ,视图 是 命名 的 、 导 出 的 虚 关 系 变 量 。ANSL SPARC 的 外 部 视图 类 似 于 几 个 关系 变量 的 集合 ， 
其 中 每 个 都 是 关系 意义 下 的 一 个 视图 ,“ 外 模式 ”包含 那些 视图 的 定义 。( 可 以 看 出 ， 在 关系 意义 
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下 的 视图 是 一 种 提供 逻辑 数据 独立 性 的 关系 模型 的 方式 ， 尽 管 目前 的 商业 产品 在 这 方面 还 有 欠 
缺 。 见 第 10 章 。) 

目前 ，ANSL/SPARC 体系 结构 已 经 很 普通 了 ， 并 且 允 许 外 模式 和 概念 模式 之 间 的 任意 可 变 
性 。 理 论 上 ， 甚 至 两 层 所 支持 的 数据 结构 的 类 型 都 可 能 是 不 同 的 一 一 例如 ， 概 念 模式 可 能 是 关系 
的 ， 而 用 户 可 以 有 一 个 层次 的 外 部 视图 ”。 但是， 实际 上 ， 许 多 系统 使 用 同一 种 数据 结构 类 型 作 
为 两 层 的 基础 ， 关 系 产 品 也 不 例外 一 一 就 像 基 本 关系 变量 一 样 ， 视 图 仍然 是 关系 变量 。 既 然 两 层 
支持 同样 的 对 象 类 型 ， 两 层 也 就 支持 同样 的 数据 子 语言 (通常 为 SQL) 。 视 图 是 关系 变量 ， 这 一 
事实 是 关系 系统 的 扩展 之 一 ; 这 就 像 数 学 中 子 集 是 集合 一 样 重要 。 注 意 : SQL 产品 和 SQL 标 
准 〈( 见 第 4 章 ) 好 像 对 用 词 有 一 点 误解 ， 比 如 在 SQL 中 经 常 说 “ 表 和 视图 ”( 上 暗示 视图 不 
是 表 ) 。 建 议 大 家 不 要 掉 和 人 这 一 陷阱 ， 不 要 把 “ 表 ”( 或 关系 变量 ) 只 理解 为 基本 表 (或 关 
系 变 量 ) 。 

最 后 一 点 需要 指出 的 是 基本 关系 变量 和 视图 的 问题 。 两 者 的 不 同 在 于 : 

sm 基本 关系 变量 是 “真实 存在 ”的 ， 意 味 着 它们 所 表示 的 数据 真正 存在 于 数据 库 中 。 

m 相反 ， 视 图 并 不 “真实 存在 ” ， 只 是 提供 了 观察 “真实 数据 ”的 各 种 方式 。 

尽管 这 在 非 正式 情况 下 可 能 很 有 用 ， 但 是 ， 这 一 特征 并 不 能 准确 反映 事情 的 真正 本 质 。 确 
实 ， 用 户 可 以 把 基本 关系 变量 理解 为 物理 存储 的 关系 变量 ; 但 事实 上 ， 在 某 种 程度 上 ， 关 系 系 统 
的 本 意 是 允许 用 户 把 基本 关系 变量 认为 是 物理 上 存在 的 ， 而 不 用 考虑 在 物理 上 是 怎样 表示 的 。 但 
这 不 能 解释 为 : 基本 关系 变量 是 以 任意 一 种 直接 的 方式 (如 ， 作 为 一 个 存储 文件 ) 进行 存储 的 。 
如 在 3. 2 节 提 及 的 ， 基 本 关系 变量 最 好 被 当 作 是 存储 数据 集 的 抽象 一 一 即 已 经 掩盖 了 存储 细节 的 
抽象 。 理 论 上 ， 基 本 关系 变量 和 它 相应 的 存储 之 间 可 以 存在 任何 程度 的 差别 。 

用 一 个 简单 的 例子 来 澄清 这 一 点 。 再 看 部 门 和 雇员 数据 库 ， 目 前 的 大 多 数 关 系 系统 可 能 用 两 
个 存储 文件 实现 数据 库 ， 每 个 文件 都 用 于 一 个 基本 关系 变量 。 但 是 ， 对 为 什么 不 用 一 个 存储 记录 
文件 ， 这 其 中 绝对 没有 逻辑 上 的 原因 。 每 个 存储 记录 包含 〈a) 每 个 部 门 有 一 个 部 门 号 、 名 称 和 
预算 ，(b) 部 门 中 的 每 个 雇员 有 雇员 号 、 姓 名 和 工资 。 换 句 话说 ， 只 要 数据 是 正确 的 ， 就 
可 以 在 物理 上 以 任何 方式 存储 ( 见 附录 A 中 更 进一步 的 讨论 ), 但 在 逻辑 层 上 看 起 来 总 是 
一 样 的 。 
3.8 事务 

注意 : 本 节 的 主题 并 不 只 针对 关系 系统 ， 为 了 理解 第 二 部 分 有 关 的 内 容 ， 必 须 先 理解 一 些 基 
本 概念 。 但 是 ， 这 里 只 作 简单 地 介绍 。 

第 1 章 中 指出 ， 事 务 是 一 个 逻辑 工作 单元 ， 通 常 包括 几 个 数据 库 操 作 ， 并 指出 当 不 同 的 操作 
处 于 同一 事务 中 时 ， 用 户 要 通知 系统 。BEGIN TRANSACTION 、COMMIT 和 ROLLBACK 操作 就 


是 基于 这 一 考虑 提出 的 。 基 本 上 ， 当 BEGIN TRANSACTION 操作 执行 时 ， 表 示 一 个 事务 的 开始 ， 
当 COMMIT 或 ROLLBACK 操作 执行 时 ， 表 示 一 个 事务 的 终止 。 例 如 〈 伪 码 ) : 


BEGIN TRANSACTION ; /* move $$$ from account A to account B */ 


UPDATE account A ; /* withdrawal */ 
UPDATE account B ， /* deposit */ 
IF everything, worked fine 
THEN COMMIT /* normal end */ 
ELSE ROLLBACK ; /* abnormal end */ 
END IF ; 
注意 以 下 几 点 问题 : 


1) 要 保证 事务 的 原子 性 ， 也 就 是 说 ， 即使 系统 在 处 理 中 发 生 故障 ， 也 要 保证 (从 逻辑 的 观 





@ ”我们 将 在 第 27 章 看 到 例子 。 

@ 下 面 引 用 一 本 最 近 出 版 的 书 中 的 话 来 展示 这 一 段 中 所 讨论 的 冲突 问题 : 在 前 面 的 3. 3 节 中 “区 分 存储 的 关系 是 
表 ， 虚 关系 还 是 视图 是 很 重要 的 。 我 们 只 有 在 用 到 一 个 表 或 者 视图 时 使 用 关系 这 个 词 ， 当 强调 关系 是 存储 关系 
而 不 是 视图 时 ， 我 们 会 用 术语 基本 表 或 基本 关系 。” 这 段 引 用 很 典型 。 
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点 ) 事务 中 的 操作 要 么 都 做 ， 要么 都 不 做 。° 

2) 要 保证 事务 的 持续 性 ， 一 旦 事务 成 功 地 执行 了 COMMIT， 即 使 随后 系统 发 生 故 障 ， 
也 要 确保 它 的 更 新 写 人 数据 库 中 。 注 意 : 本 质 上 ， 是 事务 的 持续 性 保证 了 数据 库 中 数据 的 
持久 性 。 

3) 要 保证 事务 的 隔离 性 ， 事 务 TI 对 数据 库 的 更 新 操作 对 任何 不 同 的 事务 T2 来 说 是 不 可 见 
的 ， 直 到 或 除非 Tl 成 功 执行 COMMIT。COMMIT 使 事务 的 更 新 对 其 他 事务 来 说 是 可 见 的 ; 这 些 
更 新 已 经 提交 ， 并 且 要 保证 不 能 取消 。 若 事务 执行 了 ROLLBACK， 所 有 事务 的 更 新 操作 都 要 取 
消 〈 回 滚 ) 。 对 后 一 种 情况 ， 其 结果 应 该 就 像 事 务 一 开始 就 没有 执行 一 样 。 

4) 要 保证 一 组 并 发 事务 的 交叉 执行 〈 通 常 ) 是 可 串 行 的 ， 即 其 结果 与 按 某 一 未 指明 的 次 序 
串 行 地 执行 事务 时 的 结果 相同 。 

对 上 述 几 点 和 许多 其 他 方面 的 深入 讨论 参见 第 15 章 和 第 16 章 。 


3.9 供应 商 和 零件 数据 库 


整 本 书 使 用 的 大 多 数 例子 均 基 于 著名 的 供应 商 和 零件 数据 库 。 本 节 主 要 是 解释 这 个 数据 库 ， 
为 后 续 章 节 引 用 提供 方便 。 图 3-8 给 出 了 一 个 样本 数据 值 的 集合 ， 当 后 面 做 改动 时 ， 后 面 所 举 的 
例子 实际 上 基于 这 些 值 。2 图 3-9 给 出 了 数据 库 定 义 ， 是 用 Tutorial D 来 表示 的 (Tutorial D 关键 
字 VAR 表示 “变量 " ) 。 尤 其 注意 主 码 和 外 码 的 说 明 。 注 意 : (a) 几 个 列 都 有 与 所 提 到 的 列 同名 
的 数据 类 型 ; (b) STATUS 列 和 两 个 CITY 列 都 是 用 内 部 类 型 定义 的 一 一 NTEGER (整数 ) 和 
CHAR ( 变 长 字符 串 ) 一 一 而 不 是 用 户 定义 的 。 最 后 要 注意 的 很 重要 的 一 点 是 关于 图 3-8 中 所 示 
的 列 值 ， 在 此 还 不 能 说 明 这 一 点 ， 留 待 5. 3 节 来 加 以 阐述 。 





STATUS 





London 


Paris 
Paris 
London 
Athens 








COLOR | WEIGHT 





London 
Paris 
Qslio 
London 
Paris 
London 








图 3-8 ”供应 商 和 零件 数据 库 (样本 值 ) 


以 上 数据 库 的 含义 如 下 : 

*" 关系 变量 S 代表 供应 商 ( 更 确切 地 说 ,合同 供应 商 ) ， 每 个 供应 商 有 一 个 供应 商号 (S#) ， 
对 供应 商 来 说 这 是 唯一 的 ; 一 个 供应 商 名 (SNAME)， 不必 唯一 (尽管 SNAME 值 在 图 
3-8 中 是 唯一 的 ) ; 定额 或 状态 值 (STATUS ) ;和 一 个 场所 (CITY)。 假 定 一 个 供应 商 只 
住 在 一 个 城市 。 

m 关系 变量 P 代表 零件 〈 更 精确 地 说 ， 零 件 的 种 类 ) ， 每 种 零件 有 一 个 零件 号 〈P#) 是 唯一 
的 ; 零件 名 (PNAME ); 颜色 (COLOR); 重量 (WEIGHT); 该 种 零件 储存 的 地 点 





@@ -个 事务 是 一 外 代码 的 执行 ， 而 诸如 “一 个 事务 的 执行 ”这 样 的 短语 实际 上 是 错误 的 〈 它 表示 的 是 一 个 执行 的 
执行 )。 尽 管 如 此 ， 这 样 的 措辞 是 普遍 而 有 用 的 。 因 为 没有 更 好 的 表达 ， 所 以 在 本 书 中 我 们 也 将 这 样 用 。 

全 ”为 了 方便 引用 ， 这 里 将 图 3-8 重复 一 次 。 可 能 读者 已 经 从 早期 的 几 版 书 中 熟悉 了 示例 数据 ， 我 们 需要 指出 零件 
P3 已 经 由 过 去 的 Rome 改 为 Oslo。 在 下 一 章 的 4.5 节 也 作 了 同样 的 改动 。 


(CITY) 。 假 定 一 一 在 通常 情况 下 一 一 零件 的 重量 单位 是 磅 (参见 5.4 节 对 度量 单位 的 讨 
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论 ) 。 假 定 每 种 零件 只 有 一 种 颜色 ， 恰 好 只 存在 一 个 城市 的 仓库 中 。 


wm 关系 变量 SP 代表 发 货 量 。 逻 辑 上 ， 它 的 
含义 是 将 另外 两 个 关系 变量 连接 起 来 。 例 
如 ,图 3-8 中 SP 的 首 行 连接 了 表 S ( 供 
应 商 S1) 的 一 个 特定 的 供应 商 和 表 P 
(零件 P1) 的 一 种 特定 的 零件 一 一 换 句 话 
说 ， 表 示 供 应 商 S1 供应 了 Pl 这 种 零件 
(供应 数量 为 300) 。 这 样 ， 每 个 发 货 量 就 
有 一 个 供应 商号 〈S#) 、 零 件 号 (P#) 和 
数量 (QTY ) 。 假 定 在 任何 指定 的 时 刻 ， 
对 特定 的 供应 商 和 特定 的 零件 至 多 只 有 一 
次 供 货 。 因 此 ， 对 于 每 次 供 货 ， 对 于 目前 
在 SP 中 出 现 的 S# 值 和 P# 值 的 组 合 是 唯 
一 的 。 注 意 : 图 3-8 中 的 样本 值 特意 包括 
了 一 个 供应 商 S5， 没 有 供 货 与 之 对 应 。 

注意 : 1.3 节 已 经 指出 ， 供 应 商 和 零件 可 以 





VAR S BASE RELATION 
{ S# Ss#, 
SNAME NAME, 
STATUS INTEGER, 
CITY CHAR 
PRIMARY KEY { S# } ; 


VAR P BASE RELATION 
{ P# P#, 


PNAME NAME, 
COLOR COLOR, 
WEIGHT WEIGHT, 
CITY CHAR } 
PRIMARY KEY { P# } ; 


VAR SP BASE RELATION 
{ S# S#, 


Pp# Pp#, 





当 作 实体 ， 发 货 量 可 以 当 作 一 个 指定 的 供应 商 和 
指定 的 零件 之 间 的 联系 。 该 节 还 指出 ， 联 系 最 好 
当 作 实体 的 一 个 特例 。 关 系数 据 库 的 优点 是 ， 无 
论 实 际 上 这 些 实体 是 否 为 联系 ， 所 有 实体 都 以 同 
样 的 形式 表示 一 一 即 ， 例 子 中 显示 的 关系 中 
的 行 。 
最 后 注意 以 下 几 点 : 
s 首先， 尽管 供应 商 和 零件 数据 库 非 常 简单 ， 可 能 比 任何 实际 数据 库 都 简单 得 多 ; 绝 大 多 数 
实际 的 数据 库 都 包含 比 这 个 例子 多 很 多 的 实体 和 联系 〈 而 且 是 多 很 多 种 实体 和 联系 ) 。 但 
不 管 怎样 ， 该 例 至 少 可 以 恰当 地 说 明 本 书后 面 所 要 得 出 的 结论 。 在 下 面 几 章 ， 大 多 数 例子 
还 将 使 用 它 。 
m 其 次 ， 可 以 使 用 像 SUPPLIERS 、PARTS 和 SHIPMENT 这 样 描述 性 的 名 字 代替 上 面 使 用 的 
S、P、SP 这 些 简写 的 名 字 ; 实际 中 推荐 使 用 描述 性 的 名 字 。 但 对 于 供应 商 和 零件 数据 库 
这 一 特定 的 例子 ， 因 为 要 频繁 使 用 ， 所 以 使 用 了 简 名 。 多 次 重复 长 名 字 会 邻 人 厌烦 。 


3. 10 小结 


本 节 简要 回顾 一 下 关系 技术 。 显 然 ， 对 这 样 一 个 含义 广泛 的 概念 ， 目 前 只 涉及 了 一 些 表面 的 
内 容 ， 本 章 的 主旨 是 为 进一步 理解 做 一 些 简 要 介绍 。 尽 管 如 此 ， 我 们 还 是 设法 尽 可 能 包括 更 多 方 
面 的 内 容 。 下 面 将 谈 到 的 主要 内 容 小 结 一 下 。 

从 用 户 的 观点 来 看 ， 关 系数 据 库 是 关系 变量 或 表 的 集合 。 关 系 系统 是 支持 关系 数据 库 及 其 操 
作 的 系统 ， 特 别 是 选择 、 投 影 和 连接 操作 。 这 些 操 作 和 其 他 操作 都 是 集合 操作 ， 这 些 操作 的 集合 
形成 关系 代数 。 关系 系统 的 封闭 性 是 指 每 种 操作 的 输出 都 和 其 输入 是 相同 类 型 的 (都 是 关系 
的 ) ， 这 就 表示 可 以 写 嵌 套 的 关系 表达 式 。 关 系 变 量 可 以 通过 关系 赋值 操作 来 更 新 ; 类似 地 ， 
INSERT 、UPDATE 和 DELETE 更 新 操作 也 可 以 看 作 某 些 一 般 关 系 赋值 操作 的 缩写 。 

关系 系统 所 依据 的 形式 理论 是 关系 数据 模型 。 关 系 模型 只 涉及 逻辑 的 内 容 ， 而 不 涉及 物理 的 
内 容 ， 它 包括 数据 的 三 方面 理论 一 一 即 数据 结构 、 数 据 完整 性 和 数据 操作 。 结 构 化 方面 与 关系 本 
身 有 关 ; 完整 性 方面 与 主 码 和 外 码 有 关 ; 操作 方面 与 操作 符 〈 选 择 、 投 影 和 连接 等 ) 有 关 。 信 


QTY QTY } 
PRIMARY KEY 1{ St#, P# 
FOREIGN KEY { S# } REFERENCES 8S 
FOREIGN KEY { P# } REFERENCES P ; 


图 3-9 ”供应 商 和 零件 数据 库 (数据 定义 ) 











@ 在 3.2 节 中 我 们 给 出 关系 模型 的 正规 定义 时 提 到 过 这 个 词 。 而 这 个 词 从 第 6 章 开始 我 们 才 会 正式 使 用 。 
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息 原则 (现在 看 来 更 好 的 说 法 是 统一 表示 原则 ) 表明 是 以 一 种 而 且 只 以 一 种 方式 表示 关系 数据 
库 的 整个 内 容 ， 即 以 关系 中 的 行 和 列 交叉 位 置 的 明确 的 值 表 示 。 等 价 地 : 关系 数据 库 允 许 的 唯一 
变量 是 关系 变量 。 

每 个 关系 都 含有 一 个 标题 和 一 个 主体 ; 标题 是 “ 列 名 : 类 型 名 ”对 的 集合 ， 主 体 是 对 应 标题 
的 行 集 。 一 个 指定 关系 的 标题 可 以 当 作 谓 词 ; 主体 中 的 每 一 行 表 示 一 个 真 命题 ， 用 参数 的 值 代替 
占 位 符 或 谓词 参数 的 适当 类 型 来 得 到 这 个 真 命题 。 换 名 话说， 类 型 是 我 们 所 研究 的 对 象 (的 集 
合 ); 关系 是 关于 我 们 所 研究 的 对 象 的 内 容 (的 集合 ) 。 类 型 和 关系 对 于 我 们 所 要 表示 的 数据 
(逻辑 上 的 ) 来 说 是 充分 而 必要 的 。 

优化 器 是 系统 的 组 成 部 分 ， 它 决定 怎样 执行 用 户 请 求 〈 用 户 只 需 考虑 要 什么 ， 而 不 必 考 虑 
怎么 做 ) 。 因 为 关系 系统 能 够 负责 导航 定位 所 要 的 数据 库 中 的 数据 ， 所 以 有 时 被 称 为 自动 导航 系 
统 。 优 化 和 自动 导航 是 保持 数据 物理 独立 性 的 先决 条 件 。 

字典 是 一 组 系统 关系 变量 ， 它 包括 了 关于 对 数据 库 有 用 的 各 种 条 目的 细节 信息 (基本 关系 
变量 、 视 图 、 索 引 和 有 用户， 等 等 ) 。 用 户 能 够 像 访 问 自己 的 数据 一 样 访问 字典 。 

在 指定 的 数据 库 中 ， 源 关系 变量 称 为 基本 关系 变量 ， 而 它们 的 值 称 为 基本 关系 ; 通过 关系 表 
达 式 从 基本 关系 中 得 出 的 关系 称 为 导出 关系 (基本 关系 和 导出 关系 被 称 为 可 表示 的 关系 ) 。 视 图 
是 一 种 关系 变量 ， 它 的 值 在 任何 指定 的 时 刻 是 一 个 导出 的 关系 (粗略 地 讲 ， 可 以 认为 视图 是 导 
出 的 关系 变量 ) ; 在 指定 的 时 刻 ， 这 一 关系 变量 的 值 是 从 相应 的 视图 定义 表达 式 计算 得 到 的 。 内 
此 ， 基 本 关系 变量 是 独立 存在 的 ， 但 视图 不 是 一 一 它们 依赖 于 相应 的 基本 关系 变量 ( 另 一 种 说 
法 是 基本 关系 变量 是 自治 的 ， 而 视图 不 是 ) 。 用 户 能 够 像 操纵 基本 关系 变量 一 样 操纵 视图 (至少 
理论 上 是 )。 系 统 是 通过 替换 视图 所 对 应 的 视图 定义 表达 式 来 执行 视图 上 的 操作 的 。 因 此 ， 对 视 
图 的 操作 就 转变 为 对 基本 关系 变量 的 等 价 操作 。 

事务 是 一 个 逻辑 工作 单元 ， 通 常 包括 几 个 数据 库 操作 。 当 BEGIN TRANSACTION 执行 时 ， 
一 个 事务 开始 ; 当 COMMIT (正常 终止 ) 或 ROLLBACK ( 非 正 常 终止 ) 执行 时 ， 事务 终止 。 
事务 是 原子 的 、 持 续 的 且 与 其 他 事务 相隔 离 。 一 组 并 发 事务 的 交叉 执行 (通常 ) 要 保证 是 可 串 
行 的 。 

最 后 ， 本 书 中 基本 的 例子 是 供应 商 - 零件 数据 库 。 如 果 大 家 还 没有 熟悉 这 个 例子 ， 现 在 得 多 
花 点 时 间 来 熟悉 它 ; 至 少 应 该 知道 哪个 关系 变量 有 哪些 列 ， 以 及 主 码 和 外 码 是 什么 (不 必 确 切 
地 知道 样本 数据 值 ) 。 


习题 

3.1 定义 下 列 术 语 : 
自动 导航 基本 关系 变量 日 志 闭 包 
提交 派生 关系 变量 外 码 连接 
优化 谓词 主 码 投影 
命题 关系 数据 库 关系 DBMS 关系 模型 
选择 间 滚 集合 操作 视图 


3.2 ”描述 供应 商 和 零件 数据 库 的 字典 关系 变量 TABLE 和 COLUMN 的 内 容 。 

3.3 在 3.6 节 中 提 到 ， 字 典 是 自 描 述 的 一 一 也 就 是 说 ， 和 包括 字典 关系 变量 自身 的 条 目 。 扩 展 图 3-6， 以 包 
括 关系 变量 TABLE 和 COLUMN 的 必要 条 目 。 

3.4 这 是 一 个 对 供应 商 和 零件 数据 库 的 查询 。 它 是 做 什么 的 ? 谓词 的 结果 是 什么 ? 


((SJOIR SP ) WHERE P# = P# ('P2') ) { S#, CITY } 


3.5 假定 习题 3.4 中 的 赋值 表达 式 使 用 视图 定义 : 


CREATE VIEW V AS 
( ( § JOIN SP ) WHERE P# = P# ('P2') ) { S#, CITY } ; 


考虑 查询 


( V WHERE CITY = 'London' ) { S# } 








朝 3 了 和合 光 系 条 据 床 所 介 有 行 


该 查询 做 了 什么 ? 谓词 的 结果 是 什么 ? DBMS 的 哪个 部 分 处 理 这 个 查询 ? 


3.6 你 如 何 理解 (事务 ) 的 原子 性 、 持 续 性 、 隔 离 性 和 可 串 行 性 ? 

3.7 陈述 “信息 原则 ”。 

3.8 如 果 你 了 解 层次 数据 模型 ， 请 你 简要 描述 一 下 它 与 本 章 介 绍 的 关系 数据 模型 的 区 别 。 
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第 4 章 SQL 简 介 


4.1 引言 


正如 第 1 章 中 所 述 ，SQL 是 关系 数据 库 的 标准 语言 ， 今 天 市 场 上 的 任何 数据 库 产品 几乎 
都 支持 SQL。SQL 最 初 于 20 世纪 70 年 代 早 期 在 IBM Research 开发 出 来 [4.9，4. 10] ;其 大 
部 分 内 容 首 先 在 IBM 的 System R 原型 系统 中 实现 [4.1 ~4.3, 4.12 ~4.14]， 随 后 又 在 IBM 
公司 的 其 他 产品 和 其 他 公司 的 产品 中 重新 实现 [4.8，4.14,， 4.21]。 本 章 我 们 将 概要 介绍 
SQL 语言 的 主要 特性 ; 更 多 方面 的 细节 一 一 维护 完整 性 、 确 保安 全 性 等 一 一 将 延缓 至 后 面 关 
注 这 些 问题 的 章节 介绍 。 在 讨论 的 过 程 中 ， 除 非 明确 说 明 ，SQL 将 指 代 当前 版 本 的 SQL 标准 
( 即 SQL: 1999) 。 参 考 文献 [4.23] 是 正式 的 SQL: 1999 规范 ; [4.24] 是 该 规范 的 扩展 
的 修正 集 。 

注意 ， 前 一 个 SQL 标准 版 本 是 SQL: 1992， 人 们 有 意 使 得 SQL: 1999 标准 作为 前 一 个 版 本 
的 扩展 ， 并 与 之 兼容 。 然 而 ， 我 们 仅仅 能 清楚 指出 的 是 ， 现 在 甚至 没有 数据 库 产品 可 以 完整 地 支 
持 SQL: 1992 标准 ; 不 过 ， 数 据 库 产品 通常 支持 被 称 为 “ 子 集 的 超 集 ”的 SQL 标准 (SQL: 
1999 或 者 更 可 能 的 ，SQL: 1992)。 具 体 地 讲 ， 大 部 分 的 数据 库 产品 ， 不 能 支持 标准 中 的 某 些 方 
面 ， 在 其 他 方面 又 走 得 太 远 ?。 例如 ，IBM 公司 的 DB2 并 不 完全 支持 标准 完整 性 特性 ， 但 却 支 
持 标准 中 不 支持 的 重 命名 基本 表 的 操作 符 。 

一 些 附加 的 基本 注意 事项 : 

ms SQL 原先 是 作为 特殊 的 “数据 子 语言 ”出 现 的 。 然 而 ， 随 着 SQL 持久 存储 模块 (SQL 
Persistent Stored Modules ，SQL/PSM ， 简 称 PSM) 在 1996 年 成 为 了 标准 ，SQL 已 经 变 成 
了 计算 上 完全 (computationally complete) 的 语言 一 一 它 现 在 包括 语句 ， 例 如 CALL 、RE- 
TURN、SET、CASE、IF、LOOP、LEAVE、WHILE 和 REPEAT， 还 包含 其 他 一 些 相关 的 
语言 特征 ， 比 如 可 声明 变量 和 异常 处 理 。 对 PSM 的 详细 讨论 超出 了 本 书 的 范畴 ， 但 你 可 
以 在 [4.20] 中 找到 一 份 不 错 的 入 门 介绍 。 
SQL 使 用 术语 表 (table) 来 表示 术语 关系 (relation) 和 关系 变量 (relvar); 对 应 地 ,使 
用 术语 行 (row) 和 列 (column) 表示 术语 元 组 (tuple) 和 属性 (attribute)。 因 此 为 了 与 
SQL 标准 和 SQL 产品 一 致 ， 在 本 章 中 也 做 同样 的 处 理 ， 对 本 书 其 他 涉及 SQL 的 部 分 ， 都 
做 此 处 理 。 
SQL 是 一 个 庞大 的 语言 。 它 的 规范 文档 [4.23] 超过 2000 页 一 一 不 计 [4.24] 中 300 多 
页 的 勘误 表 。 因 此 ， 本 书 无 法 全 面 阐述 SQL 标准 ， 也 不 可 能 做 到 ， 我 们 也 从 来 没有 试图 
如 此 ; 我 们 合理 地 忽略 了 很 多 标准 特性 ， 对 其 他 的 则 做 了 简化 。 
最 后 不 得 不 说 明 ， 如 第 1 ~3 章 中 很 多 地 方 已 经 指出 的 一 样 ，SQL 远 远 不 是 完美 的 关系 语 
言 一 一 它 被 自身 的 繁琐 宛 长 和 承载 的 期 望 和 责任 这 些 缺 陷 所 拖累 。 尽 管 如 此 ， 它 是 标准 ， 
市 场 上 差不多 每 一 种 产品 都 支持 它 ， 且 数据 库 的 专业 人 员 也 需要 了 解 它 。 而 这 就 是 本 书 所 
涵盖 的 (关于 SQL 的 ) 内 容 。 


4.2 SQL 基本 操作 
SQL 兼 有 数据 定义 和 数据 操纵 的 功能 。 首 先 考虑 定义 操作 。 图 4-1 为 供应 商 和 零件 数据 库 的 














QO 新 的 SQL 标准 (SQL: 2003) 预计 将 在 2003 年 晚 些 时 候 颁 布 ， 有 时 候 我 们 也 将 提 到 这 个 版 本 ， 这 时 会 特别 
说 明 。 

@ 事实 上 , 之 所 以 没有 数据 库 产 品 能 完整 地 支持 标准 ， 是 因为 标准 中 还 存在 着 缺陷 、 错 误 和 不 -- 致 ， 请 参考 
[4.23] 和 [4.24]。[4.20] 中 包含 了 对 于 SQL: 1992 存在 的 问题 的 更 详细 的 讨论 。 
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SQL 定义 ， 请 对 照 第 3 章 的 图 3-9。 在 这 个 定义 中 你 可 以 发 现 ， 6 个 用 户 定 义 类 型 (user- defined 
type，UDT) 各 包含 了 一 条 CREATE TYPE 语句 ，3 个 基本 表 各 包含 了 一 条 CREATE TABLE 语 
句 (如 第 3 章 中 所 指 ，CREATE TABLE 语句 中 的 关键 字 TABLE 专 指 基 本 表 )。 每 条 CREATE 
TABLE 语句 定义 出 基本 表 的 和 名字 、 列 的 名 字 和 类 型 、 主 码 和 外 码 (可 能 还 有 其 他 的 附加 信息 ， 
但 是 图 4-1 中 没有 描绘 ) 。 请 注意 如 下 要 点 : 
a 举例 时 ， 我 们 经 常 在 类 型 名 和 列 名 中 使 用 字符 “#"” ， 但 是 事实 上 该 字符 在 标准 中 是 不 合 
法 的 。 
um 我 们 使 用 分 号 “;” 作 为 语句 的 结束 符 。 但 是 SQL 是 否 使 用 该 符号 作为 结束 符 要 依 情况 而 
定 。 具 体 的 细节 问题 超出 了 本 书 的 范围 。 
se SQL 内 建 类 型 CHAR 使 用 时 需要 指明 长 度 一 一 图 中 是 15。 
定义 了 数据 库 之 后 ， 就 可 以 通过 SQL 语句 操纵 数据 ， 包 括 SELECT 、INSERT 、UPDATE 和 
DELETE。 使 用 SELECT 语句 可 以 完成 关系 的 选择 、 投 影 和 连接 操作 。 图 4-2 给 出 一 - 些 示 例 。 注 
意 ， 图 中 连接 操作 的 例子 中 描绘 了 点 上 限定 的 列 名 (如 S. S#，SP. S#) ， 其 目的 是 为 了 在 SQL 中 避 
免 列 引用 的 歧义 。 一 般 规 则 是 一 一 尽管 存在 例外 一 一 限定 名 总 是 可 接受 的 ， 而 非 限 定名 只 有 在 不 
造成 歧义 时 才 可 接受 。 
CREATE TYPE S# ... ; 
CREATE TYPE NAME ...; 

























Restrict: Result: 


SELECT S#, P#, QTY 
FROM SP 
WHERE QTY < QTY( 150 ) 





Project;: Result: 


SELECT S#, CITY 
FROM S; 






STATUS INTEGER, 
CITY CHAR(15), 
PRIMARY KEY ( S# ) ) ; 


CREATE TABLE P 
( P# Pp#, 









PNAME NAME, 

COLOR COLOR, 

WEIGHT WEIGHT, 

CITY CHAR(15), 
PRIMARY KEY ( P# ) ) ; 


CREATE TABLE SP 
( S# 5S#, 
Pp# Pp# 
QTY QTY, 
PRIMARY KEY ( S#, P# )， 
FOREIGN KEY ( S# ) REFERENCES S， 
FOREIGN KEY ( P# ) REFERENCES P ; 


图 4-1 供应 商 和 零件 数据 库 (SQL 定义 ) 图 4-2 ”SQL 中 的 选择 、 投 影 和 连接 的 例子 
如 下 例 所 示 ，SQL 还 支持 SELECT 子 句 的 简 记 方式 : 


Join: 

SELECT 8S.S#, SNAME, STATUS, CITY, P#, QTY 
FROM Ss, SP 

WHERE S.S# = SP.S# ; 


smith 
smith 
Smith 





SELECT > /* Or "SELECT S.*" (i.e., the */ 
FROM S ; /* "xn Can be dot-qualified) */ 


结果 就 是 5 表 的 整个 副本 ; 星 号 表示 列 出 FROM 子 句 中 表 的 所 有 列 或 用 逗号 隔 开 的 列表 ， 见 4.6 
节 中 的 形式 化 解释 ， 并 且 按 照 在 表 中 定义 的 从 左 往 右 的 顺序 列 出 ; 对 于 FROM 子 句 中 的 其 他 表 ， 
可 以 以 此 类 推 。 注 意 ; 表达 式 SELECT * FROM T (其 中 了 是 一 个 表 的 名 字 ) 在 SQL 中 可 进 一 
步 简写 为 TABLE 7T。 

第 8 章 (8.6 节 ) 中 将 对 SELECT 语句 进行 更 详尽 的 介绍 。 

现在 介绍 更 新 操作 : 第 1 章 已 经 给 出 了 SQL 中 的 INSERT、UPDATE 和 DELETE 诸 句 的 例 
子 , 但 是 该 例 却 仅 仅 是 对 单行 的 操作 。 然 而 ， 一 般 来 说 ，INSERT、UPDATE 及 DELETE 和 SE- 
LECT 语句 一 样 ， 都 是 集合 操作 运算 符 ， 这 在 第 1 章 的 习题 和 答案 中 也 可 以 看 出 。 下 面 给 出 几 个 
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在 供应 商 和 零件 数据 库 上 进行 集合 更 新 操作 的 例子 : 


INSERT 
INTO TEMP ( P#, WEIGHT ) 
SELECT P#, WEIGHT 
FROM P 
WHERE COLOR = COLOR ('Red') ; 


这 个 例子 假定 已 经 创建 了 一 个 名 为 TEMP 的 表 ， 该 表 有 两 列 : P# 和 WEIGHT。INSERT 语句 
在 零件 表 中 插入 所 有 的 红色 零件 的 标识 号 以 及 与 标识 号 相对 应 的 零件 的 重量 。 


DELETE 
FROM SP 
WHERE P# = P# ('P2') ; 


这 个 DELETE 语句 删除 了 零件 号 为 P2 的 所 有 的 记录 。 


UPDATE S 

SET TY = 2 * STATUS ， 
ITY = ' Rome 

WHERE CITY = "Paris' 


这 个 UPDATE 语句 将 所 有 在 Paris 的 供应 商 的 状态 值 (STATUS) 都 加 倍 ， 且 将 这 些 供应 商 
转移 到 Rome。 

注意 : SQL 没有 直接 的 关系 赋值 的 操作 。 然 而 ， 可 以 通过 下 面 的 方法 实现 该 操作 : 首先 将 
目标 表 中 的 所 有 行 删除 ， 然 后 执行 一 个 INSERT…SELECT… 命 令 (如 上 面 的 第 一 个 例子 所 示 ) 
将 数据 插入 表 中 。 


4.3 目录 


SQL 标准 还 包括 了 称 为 信息 模式 (Information Schema) 的 标准 目录 的 规范 。 实 际 上 ， 惯 用 
的 两 个 名 词 “ 目 录 ”(catalog) 和 “模式 ” (schema) 都 在 SQL 中 使 用 ,但 是 各 具有 SQL 的 特 
定 含 义 。 笼 统 地 说 ， 一 个 SQL 目录 包括 的 是 对 某 一 :单个 数据 库 的 描述 9 ， 而 一 个 SQL 模式 包括 
的 则 是 某 一 用 户 数据 库 的 某 一 部 分 的 描述 。 换 名 话说， 目录 可 以 有 很 多 (每 个 数据 库 一 个 ) ， 每 
个 目录 可 以 由 很 多 模式 组 成 。 然 而 每 一 个 目录 必须 要 包括 一 个 叫做 INFORMATION_SCHEMA 的 
模式 ， 而 从 用 户 的 观点 来 看 ， 正 是 该 模式 起 到 了 目录 的 作用 。 

信息 模式 由 一 系列 的 SQL 表 组 成 ， 这 些 表 的 内 容 以 一 种 非常 精确 的 方式 定义 ， 因 此 可 以 非 
常 有 效 地 显示 该 目录 中 其 他 模式 的 定义 。 更 精确 地 说 ， 信 息 模式 定义 为 一 组 假定 存在 的 “定义 
模式 ”( Definition Schema) 的 视图 。 同 样 实现 中 不 需要 支持 “定义 模式 ”， 但 是 必须 (a) 支持 
一 些 类 型 的 “定义 模式 ”; (b) 并 且 支 持 跟 信 息 模 式 类 似 的 “定义 模式 ”的 视图 。 这 里 有 如 下 
要 点 : 

1) 之 所 以 提出 如 上 所 说 的 a 和 b 两 个 概念 ， 是 基于 以 下 的 考虑 。 首 先 ， 现 在 的 很 多 产品 支 
持 与 “定义 模式 ”类 似 的 内 容 。 然 而 ， 那 些 “ 定 义 模式 ”在 各 种 产品 中 的 定义 有 很 大 的 差别 ， 
即使 是 同类 的 、 但 是 属于 不 同 厂家 的 产品 ， 其 差别 也 很 大 。 因 此 ， 需 要 支持 对 “定义 模式 ”的 
视图 进行 预定 义 的 观点 是 合理 的 。 

2) 因为 在 每 一 个 目录 中 都 有 一 个 信息 模式 ， 所 以 提 到 信息 模式 时 ， 不 应 该 理解 成 是 特定 的 
某 个 。 因 此 ， 一 般 来 说 ， 对 一 个 用 户 有 用 的 所 有 数据 不 可 能 由 一 个 信息 模式 来 描述 。 然 而 ， 为 了 
简单 起 见 ， 仍 假定 只 有 一 个 信息 模式 。 

这 里 没有 必要 详细 讨论 信息 模式 的 内 容 。 下 面 仅 列 出 一 些 重要 的 信息 模式 中 的 视图 ， 依 据 这 
些 模式 的 名 字 ， 可 以 容易 地 看 出 该 模式 中 包含 的 内 容 。 然 而 ， 需 要 说 明 的 是 ，TABLES 视图 包含 
了 所 有 的 视图 和 基本 表 的 信息 ， 而 VIEWS 视图 则 只 包含 了 视图 的 信息 。 





加 ”从 准确 性 的 角度 说 ，SQL 标准 中 并 没有 一 个 与 “数据 库 ” 意 义 等 同 的 东西 。 精 确 地 说 ， 目 录 定 义 的 、 申 数据 的 
集合 所 描述 出 来 的 东西 是 依赖 于 具体 实现 的 。 然 而 ， 就 因此 认为 它 就 是 数据 库 是 不 合理 的 。 
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ASSERTIONS TABLES 

CHECK CONSTRAINTS TABLE_CONSTRAINTS 
COLUMNS TABLE PRIVILEGES 
COLUMN_ PRIVILEGES USAGE _ PRIVILEGES 
COLUMN UDT _USAGE USER | DEFINED TYPES 
CONSTRAINT : COLUMN USAGE UDT ”PRIVILEGES 
CONSTRAINT _TABLE UsAGE VIEWS 

KEY COLUMN USAGE VIEW_ COLUMN USAGE 
REFERENTIAL CONSTRAINTS VIEW_ TABLE USAGE 
SCHEMATA 


参考 文献 [4. 20] 提供 更 多 关于 信息 模式 的 细节 描述 。 特 别 地 ， 该 参考 文献 还 介绍 了 如 何 
在 信息 模式 的 基础 上 显示 查询 。 当 然 ， 查 询 过 程 没有 读者 想像 的 那么 直接 。 


4.4 视图 
首先 给 出 一 个 SQL 视图 定义 的 例子 : 


CREATE VIEW GOOD SUPPLIER 
AS SELECT S#, STATUS, CITY 
FROM 5 
WHERE STATUS > 15 ， 


以 下 给 出 了 一 个 在 该 视图 上 定义 的 查询 : 


SELECT S#, STATUS 
FROM GOOD_ SUPPLIER 
WHERE CITY = 'London’' ; 


用 视图 的 定义 代替 视图 的 名 字 ， 可 以 写成 如 下 的 表达 式 ( 注 意 FROM 子 句 中 的 典 套 子 
查询 ): 
SELECT GOOD SUPPLIER.S#, GOOD SUPPLIER.STATUS 
FROM ( SELECT S#, STATUS, CITY 
FROM S 


WHERE STATUS > 15 ) AS GOOD SUPPLIER 
WHERE ”GOOD SUPPLIER.CITY = ‘London' ; 


上 面 的 表达 式 还 可 以 简化 成 如 下 的 形式 : 


SELECT S#, STATUS 
FROM S 

WHERE STATUS > 15 

AND CITY = 'London' ; 


后 一 个 查询 是 真正 要 执行 的 查询 。 
考虑 另外 一 个 关于 DELETE 操作 的 例子 : 


DELETE 
FROM GOOD_SUPPLIER 
WHERE CITY = 'London' ; 


这 个 DELETE 语句 的 实际 执行 是 这 样 的 : 


DELETE 

FROM S 

WHERE STATUS > 15 

AND CITY = 'London’' ;} 


4.5 事务 


SQL 包含 与 第 3 章 提 到 的 BEGIN TRANSACTION、COMMIT 和 ROLLBACK 语句 对 等 的 语 
句 ， 分 别 是 START TRANSACTION、COMMIT WORK 和 ROLLBACK WORK (其 中 的 关键 
字 WORK 可 以 省 略 ) 。 
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4.6 散 入 式 SQL 


大 多 数 的 SQL 语句 允许 直接 执行 (例如 直接 在 联机 终端 上 交互 运行 ) 或 柜 入 应 用 程序 中 
(如 SQL 语句 可 以 嵌入 程序 语言 中 ， 并 跟 它 们 一 起 使 用 ) 执行 。 而 且 ， 在 骨 人 的 情况 下 ， 应 用 程 
序 可 以 使 用 多 种 宿主 语言 ; SQL 标准 包含 了 对 于 Ada、C、COBOL 、Fortran 、Java 、M (之 前 叫 
做 MUMPS) 、Pascal 和 PLXI 语言 嵌 和 人 式 SQL 支持 的 规定 。 本 节 主 要 介绍 嵌入 式 SQL 的 情况 。 

和 嵌入 式 SQL 的 基本 思想 就 是 任何 可 以 交互 使 用 的 SQL 语句 都 可 以 在 应 用 程序 中 嵌入 使 用 ， 
叫做 双重 模式 原理 。 当 然 ，SQL 语句 的 交互 形式 和 岩 入 形式 之 间 有 很 大 的 区 别 ， 尤 其 是 检索 操 
作 需 要 在 一 个 主 程序 的 环境 中 提供 一 些 必要 的 扩展 ( 见 本 节 中 后 面 的 描述 ) ， 但 是 基本 原则 无 论 
如 何 是 不 变 的 。 注 意 : 反 过 来 就 不 一 定 对 了 ， 如 一 些 嵌 人 式 的 SQL 就 不 能 在 交互 的 环境 下 运行 。 

在 实际 讨论 能 人 式 SQL 之 前 ， 有 必要 介绍 一 些 基 本 的 细节 知识 。 读 者 可 在 图 4-3 的 程序 片 
断 中 看 到 这 些 细节 的 说 明 。 书 中 的 宿主 语言 使 用 PL/A1， 若 使 用 其 他 的 宿主 语言 ， 只 需要 做 小 的 
改动 即 可 。 下面 做 几 点 说 明 : 


EXEC SQL BEGIN DECLARE SECTION ; 

DCL SOLSTATE CHAR(GS) ; 

DCL ; 

DCL FerGHT FIXED pECIMAL(5， 1) 
EXEC SQL END DECLARE SBCTION ; 
P# = /* for example 
EXEC so SELECT P.WEIGHT 

INT :WEIGHT 


FROM Pp 
P.P# = P# ( :P# ); 


WHERE 
IF SQLSTATE = '00000 


/* WEIGHT = retrieved value */ 
/* some exception occurred */ 


图 4-3 使 用 了 嵌入 式 SQL 的 PLAI 程序 片断 


1) 为 了 将 SQL 语句 与 主语 言 分 开 ， 嵌 人 式 SQL 以 EXEC SQL 开始 ， 并 以 特殊 的 结束 符号 
(PLZI 中 使 用 一 个 分 号 ) 结束 。 

2) 一 个 可 执行 的 SQL 语句 (在 本 节 的 其 他 部 分 ， 对 嵌入 式 SQL 将 省 略 “ 仍 人 式 ” 这 
个 限定 词 ) 可 以 出 现在 任何 的 主语 言 可 执行 的 地 方 。 另 外 ， 注意“ 可 执行 的 ”意思 。 内 人 
式 SQL 包含 很 多 说 明 的 、 但 不 可 执行 的 语句 ， 这 跟 交 互 式 SQL 是 不 一 样 的 。 例 如 ，DEL- 
CARE CURSOR 就 不 是 一 个 可 执行 的 语句 〈 见 后 面 的 “使 用 游标 的 操作 ”小 节 ) ，BEGIN 
和 END DECLARE SECTION ( 见 下 面 的 第 5 点 ) 和 WHENEVER ( 见 下 面 的 第 9 点 ) 也 不 

是 可 执行 语句 。 

3) SQL 语句 可 以 使 用 主 变量 ; 但 是 使 用 之 前 必须 在 其 前 面 加 一 个 袁 号 前 绎 ， 将 其 与 SQL 的 
列 名 区 分 开 来 。 主 变量 可 以 出 现在 租 入 式 SQL 中 ， 而 字符 值 可 以 出 现在 交互 式 SQL 的 任何 地 
方 。 主 变量 还 可 以 出 现在 SELECT ( 见 第 4 点 ) 或 FETCH 语句 ( 见 下 面 的 “使 用 游标 的 操作 ” 
小 节 ) 中 的 INTO 子 句 中 ， 为 一 些 修改 操作 指定 目标 。 

4) 注意 图 4-3 的 SELECT 语句 中 的 INTO 子 旬 。 该 子 句 的 作用 是 给 出 新 值 要 插入 到 的 目标 
变量 ，INTO 子 句 中 的 第 i 个 目标 变量 对 应 SELECT 子 句 中 检索 的 第 i 个 值 。 

5) 所 有 在 SQL 语句 中 使 用 的 主 变量 必须 要 在 内 入 式 SQL 的 声明 部 分 进行 声明 (在 PLAI 中 
用 DCL) ,在 BEGIN 和 END DECLARE SECTION 两 个 声明 语句 之 间 。 

6) 每 一 个 包含 谋 人 式 SQL 语句 的 程序 必须 包括 一 个 叫做 SQLSTATE 的 主 变量 。 在 每 一 个 
SQL 语句 执行 之 后 ， 执 行 的 状态 值 将 返回 到 该 变量 中 ; 特别 地 ， 状 态 码 为 00000 表示 该 语句 正确 
执行 ，02000 的 状态 值 表示 语句 执行 但 是 没有 满足 要 求 的 数据 返回 (参见 [4.23] 对 其 他 代码 值 
的 详细 解释 ) 。 因 此 ， 原 则 上 来 看 ， 程 序 中 的 每 一 个 SQL 语句 之 后 应 该 有 一 个 对 SQLSTATE 值 
的 检测 ， 并 且 当 返回 的 结果 值 不 是 预想 的 情况 时 ， 对 其 做 适当 的 处 理 。 然 而 ， 这 样 的 检测 实际 上 
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经 常 是 隐 含 的 〈 见 下 面 的 第 9 点 )。 

7) 主 变量 的 数据 类 型 必须 要 跟 它 的 用 途 一 致 。 特 别 地 ， 当 一 个 主 变量 作为 目标 变量 (如 在 
SELECT 语句 中 ) 时 ， 它 的 数据 类 型 必须 跟 要 赋值 的 数据 类 型 相 一 致 ;同样 ， 当 一 个 主 变量 要 用 
作 源 变 量 〈 如 在 INSERT 语句 中 ) 时 ， 它 的 数据 类 型 必须 与 要 插 人 到 的 列 的 数据 类 型 相 一 致 。 
这 么 做 的 深层 次 细节 的 原因 比较 复杂 ， 因 此 ， 本 章 余下 的 部 分 先 忽略 它 的 大 部 分 内 容 ， 将 它 放 到 
5.7 节 来 解释 。 

8) 主 变量 和 SQL 的 列 可 以 有 相同 的 名 字 。 

9) 如 上 面 所 提 到 的 ， 每 一 个 SQL 语句 之 后 最 好 有 一 个 检测 SQLSTATE 返回 值 的 语句 。 
WHENEVER 语句 就 是 提供 来 简化 这 个 过 程 的 。WHENEVER 的 语法 如 下 : 


EXEC SQL WHENEVER <condition> <action> ; 


< condition > 可 以 是 NOT FOUND、SQLWARNING 或 SQLEXCEPTION， 还 包括 其 他 具体 
SQLSTATE 值 和 违背 完整 性 约束 的 条 件 ; < action > 或 者 是 CONTINUE, 或 者 是 GO TO 语句 。 
WHENEVER 不 是 一 个 可 执行 语句 ， 而 是 给 SQL 编译 器 的 一 个 说 明 语 句 。“WHENEVER < condi- 
fion > GO TO < label > ”可 以 使 编译 器 在 遇 到 每 一 个 可 执行 的 SQL 语句 之 后 ， 插 入 一 个 形式 为 
“IF <condition > GO TO < label > ...” 的 语句 ; “WHENEVER < condition > CONTINUE” 就 不 
会 导致 插入 这 样 的 语句 ， 隐 含 的 是 程序 员 手 工 插入 这 样 的 语句 。 < condition > 的 三 个 值 定义 
如 下 : 

NOT FOUND 表示 无 数据 一 一 SQLSTATE =02xxx 


SQLWARNING 表示 发 生 了 一 个 次 要 错误 一 一 SQLSTATE =01xxx 
SQLEXCEPTION 表示 发 生 了 一 个 关键 错误 一 一 SQLSTATE 的 值 参 见 【4. 23] 


在 对 程序 的 顺序 扫描 过 程 中 ，SQL 编译 器 遇 到 的 每 一 个 WHENEVER 语句 将 覆盖 其 前 一 个 
WHENEVER 语句 。 
10) 最 后 需要 注意 : 岩 人 式 SQL (使 用 第 2 章 的 术语 ) 在 SQL 和 宿主 语言 之 间 组 成 了 一 个 
松散 的 耦合 。 
基础 知识 就 介绍 到 此 ， 在 本 节 的 剩余 部 分 将 专门 介绍 数据 操纵 。 正 如 前 面 所 说 的 ， 大 多 数 的 
这 种 操作 可 以 以 直接 的 方式 处 理 ， 仅 需要 在 语法 上 做 很 小 的 改变 。 然 而 ， 检 索 操 作 需 要 一 些 特殊 
的 处 理 。 这 其 中 的 问题 是 检索 操作 一 般 来 说 会 检索 到 多 行 ， 而 不 是 一 行 ， 而 宿主 语言 一 般 不 可 能 
一 次 处 理 多 行 。 因 此 ， 必 须要 有 一 种 方式 来 协调 SQL 语言 的 集合 操作 的 检索 能 力 和 宿主 语言 的 
行 操作 的 处 理 能 力 ， 而 游标 就 是 协调 两 者 的 桥梁 。 游 标 是 特殊 类 型 的 SQL 实体 ， 只 在 由 入 式 
SQL 中 使 用 (因为 交互 式 SQL 不 需要 )。 游 标 实际 上 是 一 个 (逻辑 ) 指针 ， 可 以 使 用 该 指针 来 
处 理 数 据 行 的 集合 ， 按 顺序 将 指针 指向 每 一 行 ， 这 样 就 可 以 一 次 定位 一 行 。 有 关 游 标的 细节 将 在 
后 面 的 小 节 中 讨论 ， 下面 首先 介绍 那些 不 需要 使 用 游标 的 语句 。 
1. 不 使 用 游标 的 操作 
不 需要 游标 的 数据 操纵 语句 有 : 
s 查询 结果 为 单 记 录 的 SELECT 语句 
m INSERT 语句 
ss UPDATE (除了 CURRENT 形式 的 UPDATE， 见 下 一 小 节 ) 语句 
ss DELETE (除了 CURRENT 形式 的 DELETE， 见 下 一 小 节 ) 语句 
下 面 按 顺 序 给 出 每 个 语句 的 示例 。 
查询 结果 为 单 记 录 的 SELECT 语句 
列 出 供应 商号 跟 主 变量 GIVENS# 相 同 的 供应 商 的 状态 和 所 在 的 城市 。 
EXEC SQL SELECT STRTUS，CITY 
INTO :RANK, ;TOWN 
FROM 
WHERE S# = S# ( :GIVENS# ) ; 


用 单 记录 (singleton) SELECT 表示 一 个 SELECT 语句 的 返回 结果 只 有 一 行 。 在 这 个 例子 
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中 ， 如 果 在 S 表 中 只 有 一 条 记录 满足 WHERE 子 句 的 条 件 ， 则 STATUS 和 CITY 的 返回 值 将 赋值 
到 主 变量 RANK 和 CITY 中 ， 并 且 SQLSTATE 将 设 为 00000; 如 果 $ 表 中 没有 满足 条 件 的 记录 ， 
则 SQLSTATE 将 为 02000; 如 果 有 多 于 一 条 的 记录 满足 条 件 ， 则 程序 将 出 错 ，SQLSTATE 将 返回 
一 个 错误 代码 。 

INSERT 

在 P 表 中 增加 一 个 新 的 零件 ( 主 变量 P#、PNAME 和 PWT 分 别 给 出 零件 号 、 零 件 名 和 零件 
的 重量 ; 不 知道 颜色 和 城市 ) 。 


EXEC SQL INSERT 
INTO P ( P#, PNAME, WEIGHT ) 
VALUES ( :P#, :PNAME, :PWT ) ; 

新 零件 的 COLOR 和 CITY 值 将 设 为 程序 的 默认 值 。6. 6 节 将 对 SQL 的 默认 值 做 详细 的 介绍 。 
注意 : 因为 某 些 超出 本 书 范畴 的 原因 ， 用 户 自 定义 的 列 的 默认 值 需要 是 空 值 (null) 。( 详细 的 关 
于 空 值 的 讨论 请 见 第 19 章 ， 当 然 在 此 之 前 偶尔 引用 一 下 总 是 无 可 避免 的 。) 

DELETE 

删除 所 在 城市 为 主 变量 CITY 给 定 的 供应 商 的 记录 。 


EXEC SQL DELETE 


WHERE :CITY = 
( SELECT CITY 
FROM S 
WHERE  S.S# = SP.S# ) ; 


如 果 SP 表 中 没有 满足 WHERE 子 句 中 给 定 的 条 件 的 记录 ， 则 SQLSTATE 将 被 赋值 为 02000。 
另外 ， 需 要 注意 WHERE 子 句 中 的 嵌 人 式 子 查询 。 

UPDATE 

将 伦敦 的 供应 商 的 状态 增加 由 主 变量 RAISE 给 定 的 值 。 


EXEC SQL UPDATE S 
SET ~ STATUS = STATUS + :RAISE 
WHERE CITY = 'London' 

如 果 没 有 满足 条 件 的 记录 ，SQLSTATE 将 置 为 02000。 

2. 使 用 游标 的 操作 

现在 来 看 集合 的 检索 ， 例 如 ， 包 含 任意 行 的 集合 的 检索 ， 而 不 是 上 面 所 说 的 检索 结果 只 为 一 
行 的 情况 。 正 如 上 面 所 说 的 ， 这 需要 一 种 机 制 来 逐 行 存 取 集合 中 的 记录 ， 而 游标 就 提供 了 这 样 的 
机 制 。 处 理 过 程 可 见 图 4-4， 该 例 是 对 某 些 供应 商 的 细节 (S#、SNAME 和 STATUS) 进行 查询 ， 
这 些 供应 商 所 在 的 城市 是 由 主 变量 Y 给 定 的 。 





EXEC SQL DECLARE X CURSOR FOR /* define the cursor */ 
SELECT S.S#, S.SNAME, S.STATUS 
FROM S 
WHERE S.CITY = :Y 
ORDER BY S# ASC ; 


EXEC SQL OPEN X ; /* execute the query */ 
DO for all S rows accessible via X 》 
EXEC SQL FETCH X INTO :S#, :SNAME, :STATUS ，; 
/* fetch next supplier */ 


oer 





END ; 
EXEC SQL CLOSE X ; /* deactivate cursor X */ 





4-4 多 行 检索 示例 


说 明 :“DECLARE X CURSOR ...” 语 句 定义 了 一 个 名 为 X 的 游标 ， 通 过 在 DECLARE 声明 
中 的 SELECT 语句 ， 可 将 该 游标 跟 一 个 表 表 达 式 (例如 ， 从 表 中 取 值 ) 相关 联 。 因 为 DECLARE 
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CURSOR 是 一 个 纯粹 的 声明 语句 ， 因 此 表 的 表达 式 不 会 在 此 时 执行 。 当 执行 了 “OPEN X” 打 开 
游标 时 ， 这 个 语句 才 执行 。“FETCH X INTO ...” 语 句 则 是 一 次 从 结果 集中 取 一 行 ， 并 且 根 据 
INTO 子 句 中 的 说 明 将 取得 的 值 赋 到 主 变量 中 。 (为 了 简单 起 见 ， 这 里 将 主 变量 与 数据 库 中 的 列 
命名 为 一 样 的 名 字 。 注 意 在 游标 声明 部 分 的 SELECT 语句 没有 INTO 子 句 。) 因为 在 结果 集中 有 
多 行 ， 因 此 FETCH 语句 一 般 以 循环 的 方式 出 现 ， 而 且 只 要 结果 集中 还 有 未 处 理 的 行 ， 循 环 就 一 
直 进 行 。 一 旦 从 循环 中 退出 ， 就 执行 “CLOSE X”， 关 闭 游标 。 

现在 详细 讨论 游标 和 游标 操作 。 首 先 ， 使 用 “DECLARE CURSOR” 语句 定义 游标 ， 它 的 形 
式 一 般 是 ; 


EXEC SQL DECLARE <cursor name> CURSOR 
FOR <table exp> [ <ordering> } ; 


为 了 使 该 形式 看 起 来 更 简洁 ， 此 处 忽略 了 一 些 可 选 的 选项 。 可 选 的 <ordering > 的 语法 是 这 样 的 : 


ORDER BY <order item commalist> 


其 中 (a) < order item commalist > 列表 不 能 为 空 ， (b) 每 个 <order item > 包含 一 个 列 名 
(注意 ， 这 是 没有 限定 的 9 ) ， 后 面 跟 着 可 选 的 ASC (升序 ) 和 DESC (降序 )， 默认 值 是 升序 。 
如 果 没 有 指定 ORDER BY 子 句 ， 排 序 由 系统 决定 。 ( 同样 可 以 认定 的 是 ， 如 果 指 定 了 ORDER 
BY 子 句 ， 排 序 时 至 少 满足 < order item commalist > 的 行将 由 之 决定 。) 

注意 : 按 如 下 的 方式 定义 commalist (逗号 列表 )。 使 用 <xyz > 指明 任意 一 个 符合 语法 的 类 ， 
例如 ， 在 一 些 BNF 产生 式 规则 左边 出 现 的 符号 。 用 < xyz commalist > 指明 一 个 或 多 个 < xyz > ， 
在 这 里 面 ,每 一 个 <xyz > 由 逗号 隔 开 ， 也 有 可 能 是 一 个 或 多 个 空格 。 注意 会 在 以 后 的 语法 规则 
中 沿用 commalist (在 所 有 的 语法 规则 中 ， 而 不 只 是 SQL 语法 中 ) 。 

正如 前 面 所 说 的 ，DECLARE CURSOR 语句 是 声明 性 的 ， 而 不 是 可 执行 的 ; 它 声 明了 一 个 有 
明确 名 字 的 游标 ， 该 游标 对 应 明确 的 表 的 表达 式 ， 以 及 相关 的 排序 。 在 表 的 表达 式 中 可 以 使 用 主 
变量 。 一 个 程序 可 以 包含 任意 多 个 DECLARE CURSOR 语句 ， 每 一 个 这 样 的 语句 对 应 一 个 完全 


不 同 的 游标 。 
在 游标 上 可 以 进行 三 种 操作 : OPEN 、FETCH 和 CLOSE 。 
@ 语句 


EXEC SQL OPEN <cursor name> ;} 


打开 某 个 未 被 打开 过 的 游标 。 跟 该 游标 相关 联 的 表 表达 式 将 被 执行 (使 用 在 表达 式 中 主 变 量 的 
值 ) 。 这 样 就 标识 了 记录 集 ， 并 且 使 该 记录 集成 为 游标 的 当前 活动 集 (active set) 。 游 标 还 定位 一 
个 指针 指向 活动 集 第 一 行 的 前 面 。 注 意 : 因为 活动 集 总 是 有 顺序 的 一 一 见 前 面 关 于 ORDER BY 
的 讨论 ， 所 以 位 置 的 概念 有 一 定 的 意义 ”。 

5 语句 

EXEC SQL FETCH <cursor name> 

INTO <host variable reference commalist> }; 

在 当前 活动 集中 将 一 已 经 打开 的 游标 向 前 推进 一 行 ， 并 将 结果 的 第 i 个 值 赋 值 到 INTO 子 名 的 第 i 
个 主 变量 中 。 如 果 FETCH 语句 执行 时 记录 集中 已 经 没有 记录 ，SQLSTATE 将 被 赋值 为 02000， 
并 且 不 返回 任何 待 修改 的 数据 。 

语句 





名 “实际 上 ，SQL: 1999 标准 通过 一 堆 复杂 的 规则 限定 了 可 以 使 用 的 列 名 < table exp > ， 同 时 它 也 指定 了 规则 规范 
<order item > 可 以 是 (a) 一 个 可 计算 的 表达 式 ， 比 如 ORDER BY A + B， 或 者 是 〈b) 不 出 现在 结果 中 的 某 个 
列 名 ， 比 如 SELECT CITY FROM S ORDER BY STATUS。 详 细 的 细节 已 经 超出 本 书 范畴 ， 不 作 讨论 。 

他 ”集合 实际 上 没有 顺序 可 言 〈 见 第 6 章 ) ， 因 此 “当前 活动 集 ” 不 是 真正 意义 上 的 集合 ， 认 为 它 是 排序 列表 或 者 
数组 比较 合适 。 
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EXEC SQL CLOSE <cursor name> ; 


关闭 一 个 当前 已 经 打开 的 游标 。 关 闭 后 的 游标 没有 了 当前 活动 集 。 然 而 ， 它 还 可 以 被 重新 打开 ， 
在 游标 重新 打开 后 ， 它 将 跟 另外 一 个 活动 集 对 应 ， 该 活动 集 可 能 不 是 上 一 个 同样 的 活动 集 ， 在 游 
标 声 明 中 引用 的 主 变量 的 值 改 变 的 情况 下 ， 更 是 这 样 。 注 意 ， 在 游标 打开 的 情况 下 改变 主 变量 的 
值 在 当前 的 活动 集中 是 无 效 的 。 

游标 还 可 以 跟 另外 两 个 语句 结合 使 用 。 它 们 是 : CURRENT 形式 的 UPDATE 语句 和 DE- 
LETE 语句 。 如 果 将 一 个 名 为 X 的 游标 定位 在 某 一 特定 的 行 ， 就 可 以 对 “X 游标 的 当前 内 容 ” 进 
行 UPDTAE 或 DELETE 操作 ， 如 XX 游标 指向 的 当前 记录 。 例 如 : 


EXEC SQL UPDATE S 
SET STATUS = STATUS + :RAISE 
WHERE CURRENT OF X ，} 


如 果 表 的 表达 式 中 引用 的 是 一 个 不 可 更 新 的 视图 ( 见 10.6 节 ) ， 那 么 CURRENT 形式 的 UP- 
DATE 和 DELETE 语句 就 是 不 允许 的 。 


4.7 动态 SQL 和 SQL/CLI 


前 一 节 的 讨论 假定 我 们 能 够 在 某 时 间 之 前 (比如 在 执行 之 前 ) 完整 地 编译 程序 (包含 SQL 
语句 )。 但 对 于 某 些 确定 的 应 用 而 言 ， 这 种 假设 是 没有 道理 的 。 要 举例 的 话 ， 考 虚 一 个 联机 应 
用 : 回想 一 下 第 1 章 ， 其 中 的 一 个 联机 应 用 支持 从 联机 终端 机 或 者 其 他 类 似 的 东西 存 取 数据 库 。 
概括 地 说 ， 一 个 典型 的 联机 应 用 程序 要 按照 如 下 的 步骤 执行 : 

1) 从 终端 接受 命令 

2) 分 析 命 令 

3) 在 数据 库 上 执行 适当 的 SQL 语句 

4) 将 消息 或 结果 返回 到 终端 

如 果 程 序 在 第 1 步 中 收 到 的 命令 集 非 常 小 ， 如 航班 预订 处 理 程序 的 情况 ， 那 么 要 执行 的 SQL 
语句 就 会 非常 少 ， 因 此 就 可 以 在 程序 中 做 固定 处 理 。 在 这 种 情况 下 ,第 2 步 和 第 3 步 就 是 简单 地 
检查 输入 的 命令 ， 并 将 其 分 解 到 处 理 预 定义 的 SQL 语句 的 分 支 程序 进行 处 理 。 另 一 方面 ， 如 果 
输入 有 很 大 的 灵活 性 ， 进 行 预 处 理 和 固定 某 些 处 理 就 是 不 恰当 的 。 相 反 ， 这 个 时 候 如 果 动 态 地 构 
造 SQL 语句 就 方便 得 多 ， 然 后 对 构造 的 SQL 语句 进行 动态 编译 和 执行 。 本 节 描述 的 SQL 设施 就 
是 用 来 辅助 这 种 过 程 的 开发 的 。 

1. 动态 SQL 

动态 SQL 是 嵌入 式 SQL 的 一 种 形式 。 它 由 一 些 “ 动 态 语句 ”组 成 ， 它 们 事先 被 编译 好 ， 用 
来 精确 地 支持 在 运行 时 构建 起 来 的 普通 SQL 语句 的 编译 和 执行 工作 。 两 个 基本 的 动态 语句 是 
PREPARE (效果 上 等 于 编译 ) 和 EXECUTE。 我 们 可 以 通过 下 面 PLAI 的 例子 (不 是 很 实际 ,但 
是 非常 精确 ) 来 说 明 它 们 的 使 用 : 


DCL SQLSOURCE CHAR VARYING (65000) ; 


SQLSOURCE = 'DELETE FROM SP WHERE QTY < QTY ( 300 ) ，; 
EXEC SQL PREPARE SQLPREPPED FROM :SQLSOURCE ; 
EXEC SQL EXECUTE SQLPREPPED ; 


说 明 : 

1) SQLSOURCE 标识 了 一 个 PLXI 的 变 长 字符 串 变量 ， 程 序 需要 在 该 变量 中 构造 SQL 语句 
的 源 形 式 ， 如 字符 串 的 表示 形式 。 例 子 中 是 一 个 DELETE 语句 。 

2) SQLPREPPED 标识 了 一 个 SQL 变量 ， 而 不 是 一 个 PL/I 变量 。 该 变量 将 用 来 接收 编译 后 
的 SQL 语句 ， 这 些 SQL 语句 的 源 形 式 是 由 SQLSOURCE 给 出 的 。 (当然 名 字 SQLSOURCE 和 
SQLPREPPED 是 任 选 的 。) 

3) PL/I 的 赋值 语句 “SQLSOURCE = …” 将 一 个 SQL DELETE 语句 的 源 形式 赋值 到 SQL- 
SOURCE 中 。 当 然 ， 实 际 构造 这 样 一 个 源 语 句 的 过 程 非常 灵活 ， 可 能 还 包括 对 终端 用 户 用 自然 
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语言 (或 者 是 用 比 SQL 更 友好 的 语言 ) 输入 的 请 求 的 分 析 。 

4) PREPARE 取得 源 语句 ， 并 且 准 备 将 它 处 理 (如 编译 ) 为 可 执行 的 形式 ， 存 放 在 SQL- 
PREPPED 中 。 

5) 最 后 ，EXECUTE 语句 执行 SQLPREPPED， 并 因此 生成 真正 的 DELETE。 执 行 完 后 将 返 
回 值 置 到 SQLSTATE 中 ， 就 像 是 直接 运行 DELETE 语句 一 样 。 

注意 : 因为 SQLPREPPED 声明 的 是 一 个 SQL 变量 ， 而 不 是 一 个 PLMI 变量 ， 因 此 当 它 在 
PREPARE 和 EXECUTE 语句 中 使 用 时 不 需要 加 冒号 。 而 且 这 样 的 变量 无 需 显 式 声明 。 

顺便 说 一 下 ， 上 述 处 理 过 程 与 SQL 语句 交互 式 输入 的 处 理 情况 类 似 。 大 多 数 系 统 都 包含 交 
互 式 SQL 查询 处 理 器 。 这 些 查 询 处 理 器 其 实 是 特殊 的 联机 应 用 程序 ， 它 可 以 接受 多 种 类 型 的 输 
和 人， 不 仅 可 以 接受 有 效 的 SQL 语句 ， 有 时 还 可 以 接受 无 效 的 SQL 语句 。 它 根据 用 户 的 输入 ， 使 
用 动态 SQL 的 便利 性 构造 适当 的 SQL 语句 ， 编 译 和 执行 构造 好 的 语句 ， 并 将 结果 信息 或 结果 集 
返回 到 终端 。 
当然 ， 关 于 动态 SQL， 远 不 止 刚刚 描述 的 PREPARE 和 EXECUTE 这 些 内 容 ; 例如 ， 还 有 方 
法 可 以 使 得 带 参 数 的 SQL 语句 也 可 以 通过 编译 ， 并 在 执行 前 将 实际 的 参数 十 人 ， 对 于 前 一 节 提 
到 的 游标 来 说 ， 也 有 与 之 类 似 的 机 制 。 特 别 是 ， 存 在 一 个 EXECUTE IMMEDIATE 语句 ， 它 在 一 
条 语句 中 结合 了 PREPARE 和 EXECUTE 语句 的 功能 。 
2. 调用 级 接口 
SQL 调用 级 接口 (SQL Call-Level Interface，SQL/CLI， 简 写 为 CLI) 已 经 于 1995 年 加 入 到 
SQL 标准 中 来 。SQL/CLI 大 部 分 建立 在 微软 的 开放 数据 库 互 连接 口 ODBC 的 基础 之 上 。CLI 允 
许 一 个 用 一 般 的 宿主 语言 写 的 应 用 程序 通过 激活 开发 商 提供 的 过 程 (而 不 是 退 人 式 SQL) 来 发 
出 数据 库 操作 请 求 。 这 些 过 程 将 连接 至 应 用 程序 ， 然 后 应 用 程序 根据 需要 使 用 动态 SQL 执行 数 - 
据 库 的 操作 请 求 。 换 句 话 说 ， 从 DBMS 的 角度 来 看 ， 可 以 简单 地 将 SQL/CLI 过 程 理解 为 一 个 一 
般 的 应 用 程序 。 

读者 可 以 看 到 ，SQL/CLI (和 ODBC) 跟 动 态 SQL 一 样 ， 都 针对 了 同样 的 问题 : 应 用 程序 
中 的 SQL 语句 可 以 在 程序 运行 前 不 完全 确定 。 然 而 ，SQL/CLI 对 这 个 问题 提供 了 一 个 比 动态 
SQL 更 好 的 解决 办 法 。 这 有 两 个 原因 . 

% 动态 SQL 是 一 个 源码 级 的 标准 。 任 何 使 用 动态 SQL 的 应 用 程序 如 果 要 处 理 按照 动态 SQL 
标准 所 写 的 操作 ， 如 PREPARE 、EXCUTE 等 ， 都 需要 SQL 编译 器 的 支持 。 而 SQL/CLI 
则 与 之 不 同 ， 它 将 某 些 例 行 程序 的 细节 进行 了 标准 化 (例如 ， 子 程序 的 调用 等 ); 因而 不 
需要 特殊 的 编译 处 理 ， 而 只 需要 一 般 的 宿主 语言 编译 器 的 支持 。 因 此 ， 应 用 程序 可 以 以 一 
种 封装 的 目标 代码 的 形式 发 布 〈 可 能 由 第 三 方 开发 商 提供 ) 。 

m 更 大 的 优势 是 ， 这 些 SQL/CLI 应 用 程序 可 以 具有 DBMS 独立 性 ; 也 就 是 说 ，SQL/CLI 具 
有 人 允许 创建 一 般 性 应 用 程序 的 特性 (可 以 由 第 三 方 软件 开发 商 提 供 ) ， 所 创建 的 应 用 程序 
可 在 几 个 DBMS 上 使 用 ， 而 不 是 只 能 应 用 到 特定 的 DBMS 上 。 

下 面 给 出 一 个 模拟 前 面 动态 SQL 示例 的 SQL/CLI 程序 的 示例 ; 


char sqlsource [65000} ; 


strcpy ( sqlsource, 
"DELETE FROM SP WHERE QTY < QTY ( 300 }"” ) 
rc = SQLExecDirect ( hstmt, (SQLCHAR *)sqlsource, SQL NTS ) ; 


说 明 : 

1) 现实 世界 的 SQL/CLI 应 用 程序 倾向 于 采用 C 作为 宿主 语言 ， 因 此 我 们 在 例子 中 也 使 用 C 
而 不 是 PLX/I。 我 们 也 遵循 SQL/CLI 规范 将 变量 名 、 过 程 名 等 类 似 的 名 字 写 为 小 写 (或 者 是 大 小 
写 夹杂 ) ， 取 代 了 本 书 其 他 部 分 对 于 这 些 名 字 全 部 采用 大 写 的 习惯 。 不 要 过 分 在 意 这 一 点 ， 因 为 
准确 地 说 ， 它 只 是 在 宿主 语言 中 调用 过 程 时 的 一 种 标准 规范 ， 一 般 来 说 SQL/CLI 语法 〈 当然 不 
是 相应 的 语义 ) 将 随 着 宿主 语言 的 变化 而 变化 。 

2) C 函数 strepy 是 用 来 将 某 个 SQL DELETE 语句 复制 至 C 变量 sqlsource 中 。 
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3) C 赋值 语句 (“=”) 调用 了 SQL/CLI 过 程 SQLExecDirect 一 一 动态 SQL 的 EXECUTE 
IMMEDIATE 语句 的 等 价 物 一 一 来 执行 sqlsource 中 的 SQL 语句 ， 并 将 执行 的 结果 代码 赋 给 C 变 
量 rc。 

你 应 该 已 经 预计 到 了 ，SQL/CLI 包含 了 动态 SQL 中 差不多 所 有 特性 的 等 价 物 ， 还 加 入 了 一 
些 新 的 东西 。 更 深入 的 细节 已 经 超出 了 本 书 的 范围 。 但 是 ， 你 应 该 掌握 这 些 接 口 ， 比 如 SQL 
CLI、ODBC 和 JDBC (ODBC 的 Java 衍生 物 )， 实 践 中 它们 正 变 得 越 来 越 重要 。 你 可 以 在 21.6 
节 中 找到 进一步 的 讨论 。 


4.8 SQL 并 不 完美 


如 4.1 节 提 到 的 ，SQL 远 远 不 是 完美 的 关系 语言 一 一 它 被 自身 的 繁琐 元 长 和 承载 的 期 望 和 责 
任 这 些 缺 陷 所 拖累 。 在 接 下 来 的 章节 中 的 合适 地 方 ， 我 们 会 介绍 SQL 的 具体 不 足 之 处 ; SQL 最 
大 的 问题 在 于 : 它 在 很 多 方面 不 能 合适 地 支持 关系 模型 。 因 此 ， 现 在 的 很 多 SQL 产品 声称 为 
“关系 ”的 完全 是 名 不 副 实 。 确 实 ， 就 笔者 的 观察 来 看 ， 现 在 市 场 上 还 没有 产品 能 真正 完整 地 支 
持 关 系 模型 。 这 并 不 是 说 关系 模型 的 某 些 部 分 是 不 重要 的 ; 相反 ， 模 型 的 每 一 个 细节 都 很 重要 ， 
而 且 从 实际 的 使 用 来 看 更 重要 。 是 的 ， 强 调 这 一 点 并 不 为 过 ， 提 出 关系 理论 的 目的 不 是 为 了 理论 
而 理论 ， 而 是 给 百 分 百 实践 意义 上 的 实际 系统 提供 理论 基础 。 但 是 不 太 乐观 的 是 ， 各 个 开发 商都 
没有 真正 将 理论 作为 整体 来 实施 。 因 此 ， 从 某 些 方面 来 说 ， 现 在 的 “关系 的 ”产品 都 没有 能 够 
真正 贯彻 关系 理论 。 


4.9 小 结 


本 章 包 括 对 SQL 标准 的 一 些 主要 特征 的 介绍 。 我 们 从 商业 的 角度 强调 了 SQL 的 重要 性 ， 虽 
然 从 纯 关系 的 角度 来 看 ， 它 不 很 合适 。 

SQL 包括 数据 定义 语言 (DDL) 和 数据 操纵 语言 (DML) 部 分 。DML 可 以 在 外 模式 〈 视 
图 ) 上 操作 ， 也 可 以 在 概念 模式 ( 基 表 ) 上 操作 。 同 样 ，SQL 的 DDL 既 可 以 用 在 外 模式 〈 视 
图 ) 上 ， 也 可 以 用 在 概念 模式 〈 基 表 ) 上 定义 对 象 ; 在 大 多 数 商业 系统 中 ， 甚 至 还 支持 内 模式 
(如 索引 和 其 他 的 辅助 结构 ) 。 另 外 ，SQL 还 有 数据 控制 的 功能 ， 例 如 ， 它 可 以 提供 很 多 既 不 属 
于 DDL 也 不 属于 DML 的 功能 。GRANT 语句 便 是 其 中 一 例 ， 该 语句 允许 用 户 互 相 授 予 存 取 权 限 
( 见 第 17 章 ) 。 

本 章 说 明了 如 何 使 用 SQL 中 的 CREATE TABLE 语句 创建 基本 表 ， 顺 便 也 接触 了 CREATE 
TYPE 语句 。 并 且 接 着 给 出 了 SELECT 、INSERT 、UPDATE 和 DELETE 语句 的 例子 ， 说 明了 如 
何 利用 SELECT 来 实现 选择 、 投 影 和 连接 运算 。 还 简单 描述 了 信息 模式 ， 信 息 模式 包含 了 一 些 
事先 假定 的 “定义 模式 ”的 视图 。 本 章 还 对 SQL 在 处 理 视图 和 事务 中 的 功能 做 了 简单 的 介绍 。 

本 章 的 大 部 分 篇 旺 主要 介绍 内 入 式 SQL。 垦 人 式 SQL 的 基本 思想 是 双重 模式 的 原则 ， 即 ， 
任意 可 以 交互 使 用 的 SQL 语句 也 可 以 在 一 个 应 用 程序 中 使 用 。 这 一 原则 的 一 个 主要 例外 是 多 行 
检索 操作 ， 在 这 种 情况 下 ， 需 要 使 用 游标 来 协调 SQL 的 集合 操作 和 宿主 语言 如 PL/I 的 单行 操作 
的 差异 。 

在 讲解 了 一 些 基本 知识 〈 虽 然 大 多 数 都 是 语法 的 讲解 ) 一 一 包括 对 SQLSTATE 的 简单 说 
明 一 一 之 后 ， 主 要 介绍 了 下 列 几 种 操作 : 查询 单 记 录 的 SELECT 语句 、HNSERT 、DELETE 和 
UPDATE 语句 ， 对 它们 的 操作 都 不 需要 游标 。 之 后 又 介绍 了 需要 游标 的 操作 ， 讨 论 了 DE- 
CLARE CURSOR 、OPEN 、FETCH 、CLOSE 和 CURRENT 形式 的 UPDATE 和 DELETE 语句 。 
(标准 中 将 CURRENT 形式 的 这 些 操作 称 为 定位 型 (positioned) UPDATE 和 DELETE 语句 ; 将 非 
CURRENT 形式 的 UPDATE 和 DELETE 语句 称 为 搜索 型 (searched) UPDATE 和 DELETE 语句 。) 
最 后 ， 简 要 介绍 了 动态 SQL 的 概念 ， 特 别 措 述 了 PREPARE 和 EXECUTE 语句 ， 还 提 到 了 SQL 
调用 级 接口 ， 即 SQL/CLI (还 提 到 了 ODBC 和 JDBC)。 





人 参见 [20.1]。 
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习题 


4.1 


4.2 


4.3 


4.4 


4.5 


凡 一 部 分 基础 知 葡 


图 4-5 给 出 了 一 些 样 本 数据 值 ， 这 些 数据 来 自 扩展 后 的 供应 商 和 零件 数据 库 : 供应 商 - 零件 - 工程 数 
据 库 。” 供应 商 〈(S) 、 零 件 (P) 和 工程 (J) 有 了 瞧 一 的 标识 ， 分 别 为 供应 商号 〈S#) 、 零 件 号 ( P#) 和 
工程 号 ( 莘 ) 。SPJ 的 一 行 表示 特定 的 供应 商 S# 给 某 一 工程 # 供 应 特定 数量 QTY 的 某 一 零件 P# (如 
图 中 所 示 ，{ S#，P#， 天 | 即 是 主 码 ) 。 为 该 数据 库 写 一 个 适当 的 SQL 定义 。 注 意 : 这 个 数据 库 将 要 
作为 以 后 章节 很 多 习题 的 基础 。 



























SNAME | STATUS | CITY 


20 | London 
10 | Paris 
30 | Paris 
20 | London 
30 | Athens 




















COLOR | WEIGHT | CiTY 





Red 12.0 | London 
Green 17.0 | Paris 
Blue 17.0 | Oslo 
Red 14.0 | London 
Blue 12.0 | Paris 
Red 19.0 | London 














CITY 
Sorter Paris 
Display | Rome 
OCR Athens 
Console | Athens 
RAID London 
EDS Oslo 
Tape London 











图 4-5 供应 商 -零件 ~ 工程 数据 库 ( 样 本 值 ) 


在 4.2 节 中 ， 按 照 SQL 标准 本 身 介绍 了 CREATE TABLE 语句 。 许 多 商用 的 SQL 产品 还 在 标准 语句 

的 基础 之 上 支持 附加 的 选项 ， 支 持 索引 的 处 理 、 磁 盘 空 间 的 分 配 和 其 他 一 些 实现 时 的 事务 。 这 样 就 破 

坏 了 数据 的 物理 独立 性 和 系统 间 的 兼容 性 。 调 查 任何 一 个 你 可 得 到 的 SQL 产品 。 看 一 下 : 自己 预 

先 对 该 产品 的 某 些 批评 是 否 还 是 恰当 的 ? 特别 地 ， 写 出 该 产品 支持 哪些 CREATE TABLE 附加 的 

选项 。 

对 某 一 SQL 产品 再 进行 一 次 调查 。 思 考 下 列 问题 : 该 产品 是 否 支持 信息 模式 ? 如 果 不 支持 ， 它 的 目 

录 支 持 是 什么 样子 的 ? 

写 出 下 列 对 供应 商 -零件 - 工程 数据 库 的 更 新 操作 的 SQL 语句 : 

a) 在 S 表 中 插入 一 个 新 的 供应 商 S10。 供 应 商 的 名 字 是 Smith， 其 所 在 的 城市 是 New York， 其 状态 
还 是 未 知 的 。 

b) 删除 所 有 没有 供 货 记 录 的 工程 。 

c) 将 所 有 颜色 为 红色 的 零件 改 为 颜色 为 橙色 。 

使 用 供应 商 - 零件 - 工程 数据 库 ， 写 一 个 使 用 凡人 式 SQL 语句 的 程序 ， 按 照 供应 商号 列 出 所 有 的 供 


. 应 商 。 每 一 个 供应 商 后 面 必须 紧 跟 着 列 出 该 供应 商 供应 产品 的 所 有 工程 行 ， 工 程 行 按照 工程 号 排序 。 


4.6 


假定 PART 和 PART_STRUCTURE 表 是 如 下 定义 的 : 


CREATE TABLE PART 
( P# P#, DESCRIPTION CHAR(100), 


PRIMARY KEY ( P# ) ); 





OO 为 了 方便 参考 ， 在 本 书 封 三 上 也 有 图 4-5 与 图 3-8。 
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CREATE TABLE PART STRUCTURE 
( MAJOR P# Pp¥, MINOR P# P#, QTY QTY， 
PRIMARY KEY ( MAJOR _P#, MINOR P# ), 
FOREIGN KEY ( MAJOR P# ) REFERENCES PART, 
FOREIGN KEY ( MINOR Pp# ) REFERENCES PART ) ; 


PART_ STRUCTURE 表 说 明了 组 成 某 一 个 零件 [PART STRUCTURE | MAJOR_P# | MINOR_P# [QTY 
(MAJOR_P#) 第 一 层 的 其 他 零件 (MINOR_P ED 
#) 。 写 一 个 SQL 程序 ， 列 出 某 一 个 给 定 零件 的 
各 层 的 组 成 零件 ( 即 零 件 爆炸 问题 ) 。 注 意 : 在 
图 4-6 中 的 样本 数据 对 解决 这 个 问题 会 有 帮助 。 
可 以 看 到 ， 表 PART_STRUCTURE 显示 了 材料 单 
数据 〈 见 1.3 节 ) 在 关系 系统 中 如 何 描述 。 图 4-6 表 PART-STRUCTURE (样本 数据 ) 
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这 篇 文章 中 有 一 些 针 对 SQL 的 尖锐 批评 。 引 用 一 些 : “SQL 令 人 痛苦 。 来 自 数据 库 系 统 的 最 
头疼 的 是 SQL 语言 。 它 是 任何 想得到 的 特性 的 集合 一 一 很 多 特性 极 少 使 用 或 者 根本 就 不 该 鼓励 人 
们 使 用 ; 对 于 典型 的 应 用 程序 员 来 说 也 太 复杂 。 其 核心 结构 ( 即 选择 - 投影 - 连接 查询 与 聚集 语 
句 ) 十 分 有 用 ， 但 是 我 们 在 其 他 细 枝 末节 的 特性 是 否 普遍 、 加 和 它们 是 否 明智 的 问题 上 有 疑虑 。 
理解 SQL: 1992 ( 先 不 管 SQL: 1999) 所 有 特性 的 语义 、 覆 盖 所 有 组 合 形式 的 嵌 套 (和 相关 ) 子 
查询 、 处 理 空 值 、 支 持 触发 器 和 抽象 数据 类 型 的 函数 ， 这 些 是 一 个 亚 梦 。 典 型 的 SQL 语言 的 教学 
只 关注 核心 结构 ， 将 其 他 特性 当 作 “ 边 丁 作 边 学 习 ” 时 得 到 的 生活 经 验 。 一 些 行业 杂志 时 不 时 登 
出 一 些 SQL 语言 的 测试 题 ， 它 们 通常 是 一 个 单个 查询 语句 ， 且 横 跨 数 页 ， 降 沁 难 慌 ， 用 来 挑战 读 
者 能 否 理解 这 种 请 求 中 蕴涵 的 复杂 信息 。” 

[4.6} Andrew Eisenberg and Jim Melton: "SQL :1999 ,Formerly Known as SQL3,” ACM SIGMOD Record 28, 
No. 1( March 1999). 

对 于 因 SQL: 1999 发 布 而 引入 SQL 标准 中 的 新 特性 ， 该 文 是 一 个 概要 介绍 。 

[4.7] Andrew Fisenberg and Jim Melton: “ SQLJ Part 0,Now Known as SQL/OLB (Object Language Bind- 
ings),” ACM SIGMOD Record 27,No. 4( December 1998 ) ;“ SQLJ—Part 1 ;SQL Routines Using the ja- 
va™ Programming Language,” ACM SIGMOD Record 28, No. 4 ( December 1999 ). See also Gray 
Clossman et al. :“ Java and Relational Databases: SQLJ,” Proc. 1998 ACM SIGMOD Int. Conf. on Man- 
agement of Data , Seattle, Wash. ( June 1998 ) . 

SQL 最 初 是 指 一 个 探讨 SQL 和 Java 结合 的 可 能 途径 的 项 目 〈 它 是 几 个 最 好 的 SQL 厂商 共同 
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[4.8] 


[4.9] 


[4. 10] 


[4.11] 


[4. 12] 


[4. 13] 


[4.14] 


努力 的 结果 ) 。 项 目的 0 号 部 分 处 理 Java 程序 中 的 嵌 人 式 SQL 的 问题 ; 1 号 部 分 关注 在 SQL 中 调 
用 Java 代码 的 想法 〈 例 如 ， 调 用 一 个 用 Java 语言 编写 的 存储 过 程 一 一 见 第 2 章 ) ; 2 号 部 分 探究 将 
Java 类 用 作 SQL 数据 类 型 的 可 能 性 (例如 ， 在 定义 SQL 表 列 时 提供 帮助 ) 。0 号 部 分 的 工作 已 经 
被 SQL: 1999 标准 包含 ，! 号 和 2 号 部 分 则 差不多 确定 会 在 SQL: 2003 中 包含 进来 (参见 [4. 23] 
的 注释 ) 。 

Donald D. Chamberlin: Using the New DB2. San Francisco ,Calif : Morgan Kaufmann (1996 ) . 

这 是 一 本 对 商业 SQL 产品 的 现状 做 了 全 面 介 绍 、 可 读 性 非常 好 的 书籍 ， 由 SQL 的 两 个 最 初 的 
主要 设计 者 所 写 【4.9 ~4. 11]。 注 意 : 这 本 书 也 讨论 了 在 SQL 的 设计 过 程 中 “一 些 有 争议 的 结 
论 ” 。 主 要 是 : (a) 对 空 值 的 支持 和 (b) 允许 重复 行 。“Chamberlin 认为 对 这 两 个 问题 的 认识 已 经 
形成 定论 了 ， 现 在 不 需要 来 进行 形式 推理 ， 他 认为 空 值 和 重复 行 的 问题 是 一 个 类 似 于 宗教 信仰 的 
问题 。 最 主要 的 是 ，[ SQL] 的 设计 者 是 实用 者 而 不 是 理论 家 ， 这 种 倾向 可 以 在 设计 的 很 多 决定 上 
看 出 来 。 这 种 立场 跟 现在 的 许多 作者 有 很 大 的 不 同 ! 空 值 和 重复 值 是 一 个 科学 的 问题 ， 而 不 是 一 
个 宗教 信仰 的 问题 ; 在 这 本 书 的 第 19 章 和 第 6 章 分 别 说 明了 这 两 个 问题 。 在 “实用 的 而 不 是 「[ 理 
论 的 ] ”这 个 问题 上 ， 认 为 “理论 的 就 不 实用 ”的 观点 是 不 正确 的 ; 在 4.8 节 中 我 们 已 经 表明 了 观 
点 : 关系 理论 至 少 是 非常 实用 的 。 

Donald D. Chamberlin and Raymond F. Boyce:“SEQUEL: A Structured English Query Language,” 
Proc. 1974 ACM SIGMOD Workshop on Data Description ,Access ,and Control, Ann Arbor, Mich. ( May 
1974). 

这 篇 论文 最 先 介 绍 了 SQL 语言 (或 者 按照 该 论文 作者 原先 的 叫 法 是 SEQUEL ， 因 为 法 律 上 的 
原因 ， 名 字 随 后 做 了 修改 ) 。 

Donald D. Chamberlin et al. :“SEQUEL/2: A Unified Approach to Data Definition ,Manipulation ,and 
Control,” IBM J. RdD 20,No.6 (November 1976). See also the errata in IBM /RdD 21 ,No. 1 (Janu- 
ary 1977 ) . 

基于 以 下 两 个 条 件 ， 即 [4. 1] 中 对 SEQUEL 原型 的 实现 经 验 和 [4. 28] 中 报告 的 可 用 测试 
的 结果 ， 提 出 了 修订 版 SEQUEL/2 语言 。System R [4.2, 4.3] 支持 的 语言 基本 上 就 是 SE- 
QUEL/2, 但 是 该 语言 没有 “断言 ”和 “触发 器 ”的 功能 ( 见 第 9 章 )， 该 版 还 根据 早期 用 户 的 
使 用 经 验 增加 了 一 定 的 扩充 功能 [4. 11]。 
Donald D. Chamberlin:.“ A Summary of User Experience with the SQL Data Sublanguage,” Proc. Int. 
Conf. on Databases, Aberdeen , Scotiand (July 1980). Also available as IBM Research Report RJ2767 
(April 1980 ). 

给 出 了 早期 使 用 System R 的 用 户 经 验 ， 并 且 根 据 这 些 经 验 ， 提 出 了 对 SQL 语言 的 一 些 扩充 。 
有 的 扩充 ， 如 EXISTS 、LIKE、PREPARE 和 EXECUTE 等 ， 实 际 上 一 直到 System R 的 最 终 版 本 中 
才 实 现 。8.6 节 (EXISTS)、 附 录 B (LIKE) 和 4.7 节 (PREPARE 和 EXECUTE) 对 之 有 所 描 
述 。 
Donald D. Chamberlin et 以 : “ Support for Repetitive Transactions and Ad Hoc Queries in System R,” 
ACM TODS 6,No. 1 (March 1981). 

给 出 了 System R 在 随意 查询 和 “封装 事务 ”环境 中 的 性 能 测试 的 很 多 指标 。 一 个 “封装 事 
务 ” 是 一 个 可 存 取 数 据 库 的 一 小 部 分 的 应 用 程序 ， 需 要 在 执行 之 前 编译 。 它 与 2. 8 节 的 计划 请 求 
相对 应 。 论 文 说 明了 在 与 System R 类 似 的 系统 上 ， 所 有 事情 中 (a)》 编译 总 是 优 于 解释 的 ， 甚 至 
在 随意 查询 下 也 不 例外 ; (b) 如 果 系 统 中 有 适当 的 索引 ， 系 统 有 能 力 在 一 秒 钟 之 内 处 理 几 个 封装 
事务 。 当 时 ， 很 多 人 宣称 “关系 系统 是 没有 用 的 ” ， 而 这 篇 论文 则 认为 这 种 说 法 不 恰当 ， 该 论文 
也 因为 第 一 次 对 该 观点 提出 质疑 而 闻名 。 当 然 ， 自 从 它 第 一 次 发 表 以 来 ， 商 业 的 关系 产品 在 速度 
上 已 经 达到 了 每 秒 钟 上 百 个 或 上 千 个 的 事务 处 理 能 力 。 

Donald D. Chamberlin et al. .“ A History and Evaluation of System R,” CACM 24 ,No. 10 (QOctober 
1981 ) . 

介绍 了 System R 工程 的 三 个 主要 阶段 (初步 的 原型 、 多 用 户 的 原型 和 对 原型 的 评价 ) ， 强 调 
了 编译 和 优化 技术 ， 而 就 是 这 些 技术 使 得 System R 比较 超前 。 在 这 篇 论文 和 参考 资料 [4. 14] 
之 间 有 一 定 的 重复 。 
Donald D. Chamberlin, Arthur M. Gilbert ,and Robert A. Yost: “A History of System R and SQL / Data 
System , ”Proc. 7th Int. Conf. on Very Large Data Bases ,Cannes , France (September 1981 ) . 
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讨论 了 从 System R 原型 中 吸取 的 经 验 和 教训 ， 介 绍 了 将 该 原型 引入 到 IBM 的 DB2 产品 系列 
SQL/DS (随后 改名 为 DB2 for VM and VSE) 中 的 过 程 。 

C.J. Date:“A Critique of the SQL Database Language,” ACM SIGMOD Record 14 ,No. 3 (November 
1984 ) . Republished in Relational Database: Selected Writings. Reading, Mass. : Addison- Wesley 
(1986 ) . 

正如 在 本 章 中 所 说 的 ，SQL 并 不 完美 。 这 篇 文章 对 该 语言 的 很 多 缺点 给 出 了 批判 性 的 分 析 
(主要 从 形式 化 的 计算 机 语言 而 不 是 专门 从 数据 库 语 言 来 看 ) 。 注 意 : 这 篇 文章 的 观点 有 的 不 适用 
于 SQL: 1999。 

C.J. Date:“What's Wrong with SQL? ”in Relational Database Writings 1985 - 1989. Reading, Mass. : 
Addison- Wesley (1990). 

除了 [4.15] 中 所 说 的 SQL 的 一 些 缺点 ， 这 篇 文章 还 以 下 面 的 标题 讨论 了 SQL 的 一 些 其 他 
的 不 足 之 处 :“SQL 本 身 的 不 足 之 处 ”、“ SQL 标准 的 不 足 之 处 ”和 “应 用 的 可 移植 性 ”。 注 : 本 
文 的 一 些 观点 同样 不 适用 SQL: 1999。 

C.J. Date: “SQL Dos and Don'ts, ”in Relational Database Writings 1985 - 1989. Reading ,Mass. : Ad- 
dison- Wesley (1990 ) . 

在 [4.15]、[4.16] 和 [4.19] 中 说 到 了 SQL 的 很 多 潜在 的 不 足 ， 这 篇 文章 给 出 了 很 多 使 
用 SQL 的 建议 ， 以 尽量 避免 这 些 不足 ， 而 且 文 章 中 还 给 出 建议 以 充分 利用 开发 效率 、 可 移植 性 和 
可 连接 性 等 ， 实 现 效益 的 最 大 化 。 

C.J. Date:“How We Missed the Relational Boat, "in Relational Database Writings 1991 - 1994. Read- 
ing,Mass. : Addison- Wesley (1995 ) . 

通过 介绍 SQL 对 关系 模型 的 结构 、 完 整 性 和 操作 的 支持 ， 简 洁 地 说 明了 SQL 的 不 足 之 处 。 
C.J. Date:“Grievous Bodily Harm” (in two parts ) DBPAD 11,No.5 (May 1998 ) and No.6 (June 
1998 ) ; “Fifty Ways to Quote Your Query,” http: //www. dbpd. com (July 1998 ) 

SQL 是 一 个 宛 余 非常 大 的 语言 ， 就 是 差别 很 小 的 查询 也 有 多 种 不 同 的 表达 方式 。 这 篇 文章 说 
明了 这 一 点 ， 并 且 介 绍 了 它们 隐 含 的 不 同 之 处 。 特 别 地 ， 文 章 还 说 明了 GROUP BY 子 句 、HAYV- 
ING 子 句 和 范围 变量 可 以 在 不 影响 功能 的 情况 下 从 语言 中 有 效 地 去 掉 (在 子 查询 结构 中 也 一 样 )。 
注意 : 所 有 的 这 些 SQL 结构 在 第 8 章 (8.6 节 ) 中 有 介绍 。 

C.J. Date and Hugh Darwen: A Guide to the SQL Standard (4th edition). Reading, Mass. : Addison- 
Wesley (1997). 

这 是 一 个 更 全 面 的 SQL: 1992 标准 的 指南 ， 包括 SQL/CLI (1995) 和 SQL/PSM (1996)， 
也 是 对 SQL : 1999 标准 的 预览 。 特 别 地 ， 该 书 中 的 附录 D 说 明了 “标准 中 没有 充分 定义 的 ， 甚 
至 是 没有 正确 定义 的 很 多 方面 "。 这 些 问 题 中 的 大 多 数 在 SQL: 1999 中 仍然 存在 。 

C.I. Date and Colin J. White: A Guide to DB2 (4th edition ) . Reading, Mass. : Addison- Wesley 
(1993 ) . 
对 IBM 最 初 的 DB2 产品 (1993) 和 一 些 相关 产品 做 了 广泛 全 面 的 综述 。DB2 跟 SQL/DS 
[4. 14] 一 样 ， 是 在 System R 的 基础 上 开发 的 ， 尽 管 SQL/DS 继承 的 更 加 直接 一 些 。 
Neal Fishman: “SQL du Jour,” DBPéD 10,No. 10 (October 1997 ) . 

描述 了 在 一 些 宣称 “支持 SQL 标准 ”的 SQL 产品 中 发 现 的 很 多 不 能 令 人 满意 的 不 相 容 性 。 
International Organization for Standardization ( ISO) : Information Technology—Database Languages— 
SQOL, Document ISO/IEC 9075 :1999. Note: See also reference[ 22. 21]. 

这 是 ISO SQL: 1999 标准 的 定义 的 原本 (有 时 候 被 称 为 ISO/TEC 9075， 有 时 候 仅 仅 是 ISO 
9075 ) 。 然 而 ， 原 先 的 单个 文档 已 经 扩展 到 一 系列 开放 的 单独 部 分 (ISO/IEC 9075 -1，-2 等) 。 
在 写 该 书 的 时 候 ， 下 面 的 部 分 已 经 定义 ， 

第 一 部 分 : 框架 (SQL/ 框 架 ) 

第 二 部 分 : 基础 (SQL 基础 ) 

第 三 部 分 : 调用 接口 (SQLACLD 

第 四 部 分 : 永久 存储 模块 (SQL/PSM) 

第 五 部 分 : 宿主 语言 捆 (SQL/ 绑 定 ) 

第 六 部 分 : 暂 缺 

第 七 部 分 : 暂 缺 
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[4. 24 


[4.25 





[4.26] 


[4.27] 


[4.28] 


[4.29] 


第 八 部 分 : 暂 缺 

第 九 部 分 : 外 部 数据 的 管理 (SQL/MED) 

第 十 部 分 : 对 象 语言 绑 定 (SQL/OLB) 

正如 本 章 前 面 所 说 ， 下 一 个 版 本 预计 是 2003 年 发 布 ， 并 引入 如 下 的 变化 内 容 : 

sm 第 五 部 分 的 材料 将 合并 人 第 二 部 分 ， 第 五 部 分 将 被 舍弃 。 

旨 第 二 部 分 中 定义 标准 数据 库 目录 (“信息 模式 ”) 的 材料 将 移 至 新 的 一 部 分 ， 第 十 一 部 分 
“SQL Schemata” 。 

和 一 个 新 的 部 分 : 第 十 三 部 分 , “Java 例 程 和 类 型 ( SQL/JRT)” 将 加 入 ， 用 来 标准 化 Java 
和 SQL 结合 的 过 程 ( 见 [4.7] 的 注释 部 分 ) 。 

于 一 个 新 的 部 分 : 第 十 四 部 分 , “XML 相关 规范 (SQL/XML)” 将 加 入 ， 用 来 标准 化 处 理 
SQL 和 XML 之 间 关 系 的 特性 〈 见 第 27 章 ) 。 

顺便 提 一 下 一 一 也 值得 一 提 ， 尽 管 广泛 来 说 SQL 是 国际 “关系 ”数据 库 的 标准 ， 但 SQL 标 
准 文档 中 从 来 没有 如 此 描述 自身 ; 事实 上 ， 它 从 没有 使 用 过 “关系 ”这 个 词 。( 如 本 章 前 面 的 脚 
注 所 言 ， 既 然 如 此 ， 它 也 从 未 使 用 “数据 库 ” 一 词 。) 

International Organization for Standardization (ISO): (1O Working Draft )—Database Language 

SQL—Technical Corrigendum 5 ,Document ISO/IEC JTC1/SC32/WG3( December 2 ,2001 ). 
包括 了 对 [4.23] 中 所 说 的 原始 版 本 的 一 些 修 订 和 更 正 。 

Raymond A. Lorie and Jean- Jacques Daudenarde: SQL and Its Applications. Englewood Cliffs, N.J.. 

Prentice- Hall (1991). 

关于 如 何 使 用 “SQL” 的 书 (该 书 中 有 一 半 的 篇 幅 给 出 了 具体 的 实际 程序 的 学 习 示 例 ) 。 
Raymond A. Lorie and J. F. Nilsson: “ An Access Specification Language for a Relational Data Base Sys- 
tem,” IBM J. RdD 23,No.3 (May 1979). 

对 System R [4. 12，4.27] 的 编译 机 制 给 出 了 详细 的 解释 。 对 于 任何 一 个 给 定 的 SQL 语句 ， 
System R 优化 器 生成 一 个 名 为 ASL (Access Specification Language) 的 内 部 语言 程序 。ASL 语言 
是 优化 器 和 代码 生成 子 的 接口 〈 代 码 生成 子 将 一 个 ASL 程序 转 为 机 器 代码 ) 。ASL 包括 在 索引 、 
存储 文件 等 实体 上 的 “扫描 ”和 “插入 ”操作 。ASL 通过 将 程序 分 解 为 一 些 定义 好 的 子 过 程 ， 
使 所 有 的 翻译 过 程 更 好 管理 。 

Raymond A. Lorie and Bradford W. Wade:“The Compilation of a High- Level Data Language,” IBM 
Research Report RJ2598 ( August 1979 )、 

在 System R 中 ， 查 询 的 编译 过 程 放 在 执行 之 前 ， 而 且 在 物理 数据 库 结 构 有 了 明显 的 改变 之 
后 会 自动 地 重 编译 ， 这 种 做 法 比较 超前 。 这 篇 文章 非常 详细 地 论述 了 System R 的 编译 和 重 编译 机 
制 ， 然 而 没有 涉及 优化 的 问题 ， 该 问题 可 参见 后 面 的 [18.33] 。 

Jim Melton and Ajan R. Simon: SQL:1999— Understanding Relational Components. San Francisco ,Ca- 
lif. :; Morgan Kaufmann (2002 ) . 

一 本 SQL: 1999 教程 (只 含 基 础 部 分 ， 高 级 主题 放 在 了 文献 [26. 32] 中 ) 。Melton 是 当前 
的 SQL 标准 的 编辑 之 一 。 

David Rozenshtein ,Anatoly Abramovich ,and Eugene Birger: Optimizing Transact- SQL: Advanced Pro- 
gramming Techniques. Fremont,Calif. : SQL Forum Press (1995). 

Sybase 和 SQL Server 产品 支持 Transact- SQL 这 一 SQL 方言 。 这 本 书 介 绍 了 Transact- SQL 的 
基于 其 一 些 特色 函数 (按照 作者 的 定义 ， “这 些 函 数 可 以 允许 程序 员 用 SELECT 、WHERE、 
GROUP BY 和 SET 子 句 编写 有 条 件 的 程序 逻辑 ”" ) 的 一 系列 编程 方法 。 昌 然 这 是 专门 用 Transact- 
SQL 编写 的 ， 但 是 这 个 思想 在 实际 中 有 很 大 的 适用 性 。 注 意 : 应 该 说 明 ， 在 本 书 标题 中 提 到 的 
“优化 ”不 是 指 DBMS 的 优化 器 ， 而 是 用 户 可 以 自己 手工 执行 的 优化 。 





第 二 部 分 关系 模型 


关系 模型 毫 无 疑问 是 现代 数据 库 技术 的 基础 ; 它 是 使 得 这 一 领域 成 为 一 门 科学 的 基础 。 因 
此 ,任何 有 关 数 据 库 技术 基础 的 书籍 如 果 没 有 包含 关系 模型 ， 那 就 是 浅薄 的 。 同 样 ， 如 果 没 有 深 
入 理解 关系 模型 ， 而 声称 是 数据 库 领 域 的 专家 ， 这 是 无 法 让 人 接受 的 。 其 实 关系 模型 并 不 非常 难 
理解 ， 但 是 需要 强调 ， 它 是 基础 ， 并 且 在 人 们 所 能 预见 的 时 期 内 它 仍 然 是 。 

在 第 3 章 曾 经 提 到 ， 关 系 模型 涉及 数据 的 三 个 基本 方面 : 数据 结构 、 数 据 操纵 和 数据 完整 
性 。 在 本 书 的 这 一 部 分 ， 我 们 依次 讨论 这 三 个 方面 : 

四 第 5 章 和 第 6 章 讨论 结构 (第 5 章 涉 及 类 型 ,第 6 章 涉及 关系 ) 。 

第 7 章 和 第 8 章 讨论 操纵 (第 7 章 涉 及 关系 代数 ， 第 8 章 涉及 关系 演算 ) 。 

@ 第 9 章 介 绍 完 整 性 。 

最 后 ， 第 10 章 讨 论 视图 这 一 重要 主题 。 注 意 ; 可 能 需要 补充 的 是 关系 模型 划分 为 三 部 分 ， 
这 点 在 较 高 的 理论 层面 上 非常 有 用 ， 可 以 帮助 我 们 了 解 得 更 清楚 。 正 如 我 们 将 要 看 到 的 一 样 ， 实 
际 上 ， 关 系 模型 的 每 一 个 独立 部 分 彼此 之 间 高 度 互 连 ， 彼 此 在 很 多 方面 相互 依赖 ; 因此 ， 通 常 
(或 者 原则 上 ) 不 可 能 删除 任何 一 部 分 而 不 破坏 整体 模型 。 在 第 5 ~ 10 章 中 可 以 看 到 大 量 前 后 参 
照 的 内 容 。 

关系 模型 不 是 一 个 静态 的 事物 ， 理 解 这 一 点 非常 重要 一 一 过 去 几 年 里 它 不 断 发 展 和 进化 ， 未 
来 将 仍然 如 此 。9 接 下 来 的 内 容 反映 了 作者 和 这 个 领域 里 其 他 工作 者 的 思想 〈 特 别 是 ， 如 同 在 前 
言 提 到 的 ， 参 者 了 《对 象 关 系数 据 库 基础 第 3 版 宣言 》[3.3] 一 书 的 观点 ) 。 本 书 尽 量 使 内 容 
相对 地 完备 准确 叙述 风格 虽然 采用 了 授课 形式 ,但 读者 不 要 把 这 些 当 作 一 成 不 变 的 东西 。 

需 重 申 的 是 ， 关 系 模型 并 不 难 理解 ， 但 它 是 一 种 理论 ， 大 多 数理 论 都 带 有 它 自 己 的 专门 术语 
(原因 在 3.3 节 已 经 说 明 ) ， 关 系 模型 在 这 方面 也 不 例外 。 本 书 的 这 一 部 分 要 用 到 自己 的 专门 本 
语 。 不 可 和 否认， 最 初 这 些 术 语 会 带 来 一 点 混乱 ， 并 且 会 成 为 理解 的 障碍 。 因 此 ， 如 果 读 者 在 理解 
上 有 些 困 难 ， 需 要 耐心 些 ， 一 旦 熟悉 了 有 关 的 术语 ， 就 会 发 现 内 容 非 常 简单 。 

接 下 来 的 6 章 篇 蚂 很 长 〈 这 一 部 分 完全 可 单独 成 书 ) 。 但 是 ， 长 度 正 反映 了 这 部 分 内 容 的 重 
要 性 。 用 一 两 页 的 篇 幅 来 概述 这 部 分 内 容 也 是 完全 可 能 的 ; 事实 上 ， 关 系 模型 的 一 个 主要 优点 就 
是 其 基本 内 容 非 常 容易 六 述 和 理解 。 然 而 ， 用 过 短 的 篇 幅 来 介绍 是 不 合理 的 ， 也 不 能 说 明 关 系 模 
型 的 应 用 广泛 性 。 本 部 分 的 长 篇 论述 ， 不 应 看 作 是 模型 复杂 性 的 表现 ,而 应 看 作 是 该 模型 作为 大 
量 深度 研究 之 基础 的 重要 性 和 成 功 之 处 的 诠释 。 著 能 深入 理解 这 部 分 内 容 ， 则 在 未 来 的 数据 库 实 
践 中 必 会 给 读者 无 数 倍 的 回报 。 

最 后 是 一 点 关于 SQL 的 说 明 。 在 本 书 的 第 一 部 分 已 解释 过 ，SQL 是 标准 关系 数据 库 语 言 ， 
市 场 上 几乎 每 一 种 数据 库 产 品 都 支持 它 (或 者 ,更 准确 一 点 ， 是 支持 它 的 变种 - 参 腿 [4.22]) 。 
由 此 而 来 的 结果 是 ， 不 包含 SQL 的 现代 数据 库 书 藉 是 不 能 称 其 为 全 面 的 。 因 此 ， 在 接 下 来 关于 
关系 模型 各 方面 的 章节 中 ， 都 会 在 适当 的 地 方 顺便 讨论 相关 的 SQL 实用 程序 (第 4 章 履 盖 SQL 
的 基本 内 容 ) 。 





@ 在 这 点 上 关系 模型 类 似 于 数学 (数学 也 不 是 静态 的 ， 而 是 随时 间 发 生 改变 ) ; 事实 上 ， 关 系 模型 可 以 被 视 为 数学 
的 一 个 小 分 支 。 





第 5 章 类 型 


5.1 引言 

注意 : 这 一 部 分 读者 第 一 次 可 以 从 头 到 尾 粗 略 地 读 一 遍 。 这 一 部 分 逻辑 上 应 该 放 在 这 里 ， 但 
是 它 的 大 部 分 内 容 直 到 第 五 部 分 的 第 20 章 和 第 六 部 分 的 第 25 ~27 章 才 会 用 到 。 

数据 类 型 (简称 类 型 ) 的 概念 非常 基础 : 值 、 变 量 、 参 数 、 只 读 操作 符 ， 特 别 是 关系 属性 ， 
都 是 类 型 的 一 种 。 那 么 ， 什 么 是 类 型 呢 ? 它 是 相关 类 型 所 有 值 的 集合 。 例 如 ， 类 型 INTEGER 是 
所 有 整数 的 集合 ; 类 型 CHAR 是 所 有 字符 串 的 集合 ， 类 型 S# 是 所 有 供应 商号 码 的 集合 ; 等 等 。 
当 我 们 举例 说 供应 商 S$ 有 一 个 类 型 为 INTEGER 的 属性 STATUS 的 时 候 ， 我 们 指 的 是 这 个 属性 的 
值 是 整数 ， 而 且 只 能 是 整数 。 

注意 ， 有 两 点 需要 指出 : 

a 首先 ， 类 型 也 称 为 域 ， 特 别 是 在 关系 中 更 多 地 使 用 域 这 个 术语 ， 实际 上 ， 这 本 书 的 早期 版 

本 都 使 用 的 是 后 者 ,但 是 现在 本 书 更 倾向 于 使 用 类 型 这 个 术语 。 

s 其 次 ,我们 提醒 读者 ， 本 章 尽量 保证 内 容 合 理 正确 。 因 此 ， 我 们 不 能 说 类 型 INTEGER 是 

所 有 的 整数 的 集合 ， 而 应 该 说 它 是 所 有 考虑 到 的 计算 机 能 够 表达 的 整数 的 集合 (显然 有 

些 整数 超出 了 任何 一 台 计 算 机 所 能 表达 的 范围 ) 。 类 似 的 限定 也 适用 于 本 章 的 其 他 声明 和 

例子 。 我 们 不 再 每 次 都 将 这 个 问题 指出 来 ， 但 是 会 一 直 坚 持 这 一 点 。 

任何 给 定 的 类 型 要 人 么 是 系统 定义 类 型 (比如 说 内 置 类 型 ) ， 要 么 是 用 户 定义 类 型 。 从 本 章 的 
目的 出 发 ， 我 们 假定 前 面 提 到 的 三 种 类 型 中 ，INTEGER 和 CHAR 都 是 系统 定义 类 型 ，S# 是 用 户 
定义 类 型 。 任 何 类 型 ， 不 管 它 是 系统 定义 类 型 还 是 用 户 定义 类 型 ， 都 能 够 作为 正在 声明 的 关系 属 
性 (和 变量 、 参 数 及 只 读 操作 符 一 一 概念 见 5.2 节 ) 的 基础 。 

任何 给 定 类 型 都 存在 相关 的 操作 符 的 集合 ， 这 些 操 作 符 都 能 有 效应 用 于 这 些 类 型 的 值 。 换 句 
话说 ， 给 定 类 型 的 值 只 能 参与 针对 这 个 类 型 定义 的 操作 符 的 操作 (这 里 所 说 的 “针对 这 个 类 型 
定义 ”的 意思 是 指 ， 我 们 所 讨论 的 操作 符 有 一 个 参数 被 声明 为 这 个 类 型 ) 。 举 个 例子 ， 在 系统 定 
义 类 型 INTEGER 中 

e 系统 提供 操作 符 “ =”、“<”， 等 等 ， 用 来 比较 整数 大 小 。 

系统 同时 提供 操作 符 “ +”、“ *”， 等 等 ， 执 行 整数 上 的 算术 操作 。 

和 系统 不 提供 “1 1 ”( 连 接 ) 、SUBSTR (〈 取 子 串 ) 等 操作 符 来 在 整数 上 进行 字符 串 操作 。 

换 名 话说， 整数 不 支持 字符 串 操作 。 

相应 地 ， 在 用 户 定义 类 型 S$# 中 ， 我 们 也 能 定义 “ =”、“ < ”等 操作 符 ， 用 来 比较 供应 商号 
码 。 然 而 ， 不 能 定义 “+”、“ * ”等 操作 符 ， 即 这 种 类 型 不 支持 供应 商号 码 上 的 算术 操作 (其 
实 对 两 个 供应 商号 码 相 加 或 相 乘 是 毫 无 意义 的 ) 。 

现在 我 们 将 以 [3.3] 中 提出 的 类 型 理论 为 基础 ， 深 入 榨 讨 前 面 提 到 的 想法 。 


5.2 值 与 变量 


首先 要 讨论 的 是 值 与 变量 之 间 的 重要 上 且 基 本 的 逻辑 区 别 ”( 在 文献 材料 中 关于 这 点 存在 大 量 

令 人 惊奇 的 争议 ) 。 参 考 [5.1] ， 我 们 提出 以 下 的 定义 : 
= 值 (value) 是 指 一 个 独立 的 常量 。 例 如 ， 这 个 独立 的 常量 就 是 整数 3。 一 个 值 本 身 没 有 时 
间 和 空间 的 位 置 ， 但 是 值 能 够 通过 某 种 内 存 内 的 编码 得 以 表示 ， 这 样 的 表示 或 者 出 现 
(我 们 以 前 使 用 的 术语 ) 就 在 时 间 和 空间 上 有 了 位 置 (location) 。 同 一 个 值 的 不 同 出 现在 
空间 和 时 间 上 存在 不 同 的 位 置 ， 意 思 是 说 ， 任 何不 同 变量 都 可 以 同时 或 者 不 同时 有 同一 个 





参见 {3.3] 中 对 这 个 有 用 而 且 重 要 的 概念 的 解释 。 
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值 。 特 别 要 注意 的 是 ， 从 定义 上 ， 值 不 能 更 新 ， 因 为 如 果 它 可 以 更 新 ,那么 经 过 更 新 后 就 
不 再 是 这 个 值 了 。 
= 变量 (variable) 是 一 个 值 的 某 次 出 现 的 所 有 者 。 一 个 变量 在 时 间 和 空间 上 有 自己 的 位 置 。 
而 且 ， 显 然 变量 不 像 值 一 样 ， 它 是 能 够 更 新 的 。 也 就 是 说 ， 我 们 讨论 的 这 个 变 基 的 当前 值 
可 以 被 另 一 个 值 替换 ， 这 个 值 不 同 于 前 一 个 值 。(〈 当然 这 个 变量 在 更 新 后 还 是 同一 个 变 
量 。) 
请 注意 这 并 不 只 是 像 整 数 3 那么 简单 。 相 反 ， 值 可 以 相当 复杂 ; 比如 说 一 个 值 可 以 是 一 个 几 
何 点 、 一 个 多 边 形 、 一 条 和 射线 、 一 篇 XML 文档 、 一 个 指纹 、 一 个 数组 、 一 个 堆 、 一 个 列表 、 
一 个 关系 ， 等 等 。 当 然 类 似 的 观点 也 适用 于 变量 。 
接 下 来 有 一 点 很 重要 ， 我 们 必须 区 分 本 质 上 的 值 和 在 特定 上 下 文中 这 个 值 的 出 现 〈 比如 说 
作为 某 些 变量 的 当前 值 ) 之 间 的 不 同 。 正 如 已 经 解释 过 的 ， 同 一 个 值 可 以 同时 出 现在 许多 不 同 
的 上 下 文中 。 每 一 个 出 现 都 包含 这 个 值 的 某 种 编码 或 者 物理 表示 ; 更 进一步 ， 那 些 编码 并 不 必然 
相同 。 举 例 来 说 ， 整 数值 3 确实 只 在 整数 集合 中 存在 一 次 (好像 宇宙 中 确实 只 存在 一 个 整数 3)， 
但 是 任意 数目 的 变量 都 可 能 同时 把 这 个 整数 的 一 次 出 现 当 作 当 前 值 。 更 进一步 ， 某 些 出 现 可 能 物 
理 上 通过 十 进 制 编码 表示 ， 另 一 些 出 现 则 是 通过 二 进 制 编码 表示 。 于 是 ， 一 面 是 一 个 值 的 一 次 出 
现 ， 另 一 面 是 这 个 出 现 的 内 部 编码 或 者 物理 表示 ， 这 两 者 存在 着 逻辑 不 同 。 
很 显然 ， 虽 然 有 上 述 的 讨论 ， 我 们 发 现 缩写 会 带 来 便利 ,“ 一 个 值 的 一 次 出 现 的 编码 ”缩写 
为 “一 个 值 的 出 现 ”, 或 者 直接 缩写 为 “ 值 "， 只 要 不 会 产生 混淆 就 可 以 这 样 做 。 注 意 ,“ 值 的 出 
现 ” 是 一 个 模型 (model) 概念 ， 而 “一 次 出 现 的 编码 ”是 实现 (implementation〉 概念 。 比 如 ， 
用 户 可 能 需要 知道 某 两 个 不 同 的 变量 是 否 包含 同一 个 值 的 出 现 〈 即 它们 是 否 相等 ) ; 然而 ， 他 们 
不 必 有 知道 这 两 个 出 现 是 否 采用 同一 种 物理 编码 。 
值 和 变量 类 型 化 
每 一 个 值 都 有 (等 价 于 “属于 ”) 某 种 类 型 。 换 句 话 说 ， 如 果 v 是 一 个 值 ， 那 么 v 需要 有 一 
个 标记 能 够 说 明 “ 我 是 一 个 整数 ”或 者 “我 是 一 个 供应 商号 码 ” 或 者 “我 是 一 个 几何 点 ”。 在 
定义 上 ， 任 何 给 定 的 值 总 是 有 一 个 明确 的 类 型 ,” 这 个 类 型 不 再 发 生 改 变 。 不 同 的 类 型 之 间 没 有 
交集 ， 这 意味 着 这 些 类 型 不 会 有 相同 的 值 。 更 进一步 ， 
a 每 个 变量 必须 显 式 声 明 为 某 种 类 型 ， 即 每 个 变量 的 可 能 取 值 都 是 这 个 类 型 的 一 个 值 。 
m 关系 变量 (relvar) 一 一 见 第 6 章 一 一 的 每 个 属性 必须 显 式 声 明 为 某 种 类 型 ， 即 每 个 属性 
的 可 能 取 值 都 是 这 个 类 型 的 值 。 

m 每 个 操作 符 一 一 见 5.5 节 一 一 的 返回 结果 都 要 显 式 声明 属于 某 种 类 型 ， 即 每 一 个 通过 调用 
这 个 操作 符 得 到 的 可 能 结果 都 是 这 个 类 型 的 值 。 

操作 符 的 每 个 参数 一 一 见 5. 5 节 一 一 都 显 式 声明 为 某 种 类 型 ， 意 思 是 替换 参数 的 每 一 个 可 
能 自 变 量 都 是 这 个 类 型 的 值 。( 实际 上 这 人 句 话 并 不 足够 准确 。 操 作 符 通常 分 为 两 个 不 相交 
的 类 别 ， 只 读 操作 符 与 更 新 操作 符 ; 只 读 操 作 符 返回 一 个 结果 ， 但 是 更 新 操作 符 更 新 一 个 
或 者 更 多 自 变量 。 对 于 一 个 更 新 操作 符 来 说 ， 任 何 需要 更 新 的 自 变量 都 要 求 是 一 个 变量 ， 
而 不 是 一 个 值 ， 它 的 类 型 必须 和 相应 的 参数 类 型 保持 一 致 。) 

m 通常， 每 一 个 表达 式 隐 性 声明 为 某 种 类 型 : 也 就 是 ， 类 型 声明 为 最 外 层 操作 符 所 包含 的 类 
型 ， 这 个 最 外 层 操作 是 指 这 个 表达 式 最 后 执行 的 操作 符 。 比 如 说 ， 表 达 式 a* (b+c) 的 
类 型 为 操作 符 * ( 乘 ) 的 类 型 。 

此 外 ， 如 果 操作 符 是 多 形态 (polymorphic) 的 ,那么 前 面 提 过 的 操作 符 和 操作 符 参数 都 需 
要 一 些 调整 。 如 果 一 个 操作 符 在 不 同 的 调用 中 ， 它 的 参数 P 以 及 与 这 些 参数 P 对 应 的 自 变量 都 属 
于 不 同 的 类 型 ， 那 么 这 个 操作 符 就 是 多 形态 的 。 相 等 操作 符 “ = ”就 是 一 个 明显 的 例子 : 我 们 
可 以 检查 任何 两 个 值 vl 各 是 否 相 等 (只 要 这 两 个 值 都 属于 同一 类 型 ) ， 所 以 “ = ”是 多 形态 
的 一 一 它 适 用 于 整数 、 字 符 串 、 供 应 商号 码 和 任何 可 能 类 型 的 值 。 类 似 的 结论 适用 于 赋值 操作 符 











全 ” 当 支 持 类 型 继承 时 情况 可 能 会 不 同 。 从 第 20 章 起 ， 我 们 才 考 虑 类 型 继承 。 
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“: =”( 这 个 操作 符 可 以 定义 为 任何 类 型 ) : 我 们 可 以 将 任何 一 个 值 v 指定 给 任何 变量 VY， 只 要 
v 和 V 属 于 同一 类 型 。( 当然 ,如果 赋值 违反 了 某 些 整 数 限 制 ， 赋 值 就 会 失败 一 一 见 第 9 章 
但 是 发 生 同 样 的 类 型 错误 就 不 会 失败 。) ”在 第 20 章 等 其 他 章节 中 可 以 看 到 更 多 关于 多 形态 操作 
符 的 例子 。 


5. 3 类 型 与 表示 


我 们 已 经 谈 到 这 样 的 事实 ， 类 型 本 身 和 这 个 类 型 的 值 在 系统 内 部 的 物理 表示 之 间 存 在 着 逻辑 
不 同 。 实 际 上 ， 类 型 是 一 个 模型 问题 ， 而 物理 表示 是 一 个 实现 问题 。 例 如 ， 供 应 商号 码 可 以 被 物 
理 地 表现 为 字符 串 ， 但 这 并 不 意味 着 可 以 在 供应 商号 码 上 进行 字符 串 操作 ; 仅 当 在 类 型 上 定义 了 
相应 的 操作 符 ， 才 能 执行 这 些 操 作 。 当 然 ， 给 一 种 类 型 定义 操作 符 ， 依 赖 于 该 类 型 的 具体 含义 和 
语义 ， 而 不 依赖 于 类 型 的 值 被 物理 表示 的 方式 ， 实 际 上 ， 物 理 表示 应 该 对 用 户 是 隐藏 的 。 换 名 话 
说 ， 我 们 所 讨论 的 类 型 和 物理 表示 之 间 的 区 别 是 数据 独立 〈 见 第 1 章 ) 的 一 个 重要 方面 。 

我 们 顺便 提 到 数据 类 型 (特别 是 用 户 定 义 类 型 ) 在 文献 中 有 时 称 为 抽象 数据 类 型 或 者 ADT， 
这 是 为 了 强调 类 型 必须 和 它们 的 物理 表示 分 开 。 这 里 并 不 使 用 这 个 术语 ， 因 为 它 可 能 会 让 人 误 以 
为 有 些 类 型 不 是 抽象 的 ， 我 们 强调 类 型 必须 永远 与 其 物理 表示 分 开 。 

1. 标量 与 非 标 量 

任何 给 定 类 型 可 以 是 标量 (scalar) 的 ， 也 可 以 是 非 标量 (nonscalar) 的 。 

a 一 个 非 标 量 的 类 型 是 其 值 可 以 显 式 定义 为 一 组 用 户 可 见 的 和 可 直接 访问 的 分 量 (compo- 

nent) 的 类 型 。 从 这 个 意义 上 说 ， 关 系 类 型 ( 见 第 6 章 ) 是 非 标量 的 ， 因 为 关系 有 元 组 和 
属性 作为 用 户 可 见 的 分 量 。( 更 进一步 ， 元 组 类 型 依次 也 是 非 标 量 的 ， 因 为 元 组 有 属性 值 
作为 用 户 可 见 的 分 量 。) 

sa -一 个 标量 的 类 型 就 是 不 是 非 标量 的 类 型 。 注 意 : 标量 有 时 被 说 成 是 封装 的 ， 有 时 说 成 是 原 

子 的 。 原 子 的 说 法 通常 用 于 关系 的 上 下 文中 (包括 本 书 的 早期 版 本 )。 关 于 封装 ， 参 照 第 
25 章 。 

类 型 了 的 值 是 标量 或 者 非 标量 取决 于 了 是 标量 或 者 非 标量 ; 于是， 一 个 非 标 量 的 值 有 一 组 用 
户 可 见 的 分 量 ， 而 一 个 标量 的 值 则 没有 。 类 似 的 结论 适用 于 变量 、 属 性 、 参 数 和 通常 的 表达 式 ， 
细节 已 作 更 正 。 

2. 可 能 表示 ， 选 择 子 操作 符 和 THE _ 操作 符 

假定 了 是 标量 的 类 型 ， 则 类 型 了 的 值 的 物理 表示 是 不 为 用 户 所 见 的 。 实 际 上 ， 这 样 的 表示 可 
以 相当 复杂 一 一 特别 是 ， 它 可 以 有 分 量 一 一 但 是 这 样 的 分 量 是 用 户 不 可 见 的 。 然 而 ， 我 们 要 求 类 
型 工 的 值 至 少 有 一 个 可 能 表示 2? (作为 类 型 了 定义 的 一 部 分 声明 ) ， 而 且 这 样 的 可 能 表示 是 用 户 
可 网 的 ， 特 别 是 ， 它 们 有 用 户 可 见 的 分 量 。 要 理解 ， 这 里 的 分 量 不 是 类 型 的 分 量 ， 它 们 是 可 能 表 
示 的 分 量 一 一 从 这 个 意义 上 ， 类 型 仍然 是 标量 的 。 为 了 证 明 ， 我 们 考虑 用 户 定义 类 型 QTY 
(“quantity”) ， 它 在 Tatorial D 中 的 定义 如 下 : 


TYPE QTY POSSREP { INTEGER } ，; 


这 个 类 型 定义 说 明 ，quantity 可 能 表示 为 整数 。 这 样 ， 已 声明 的 可 能 表示 “possrep” 能 够 有 
用 户 可 见 的 分 量 一 一 实际 上 ， 它 确实 有 这 样 的 类 型 INTEGER ,但 是 quantity 本 身 没 有 。 

这 里 还 有 另 一 个 例子 来 证 明 这 一 点 : 

TYPE POINT /* geometric points in two-dimensional space */ 


POSSREP CARTESIAN { X RATIONAL, Y RATIONAL } 
POSSREP POLAR { R RATIONAL, 8 RATIONAL } ; 














G 更 准确 地 说 ， 运 行 时 发 生 类 型 错误 不 会 导致 赋值 操作 失败 。 这 里 ， 我 们 有 充分 理由 假定 ， 这 个 系统 会 进行 “ 静 
态 ” 类 型 检查 或 者 在 编译 时 进行 类 型 检查 ; 很 明显 ， 如 果 编 译 时 刻 检查 成 功 ， 那 么 在 运行 时 错误 就 不 会 发 生 。 
名 除 韭 类 型 是 虚构 类 型 ( 见 第 20 章 ) 。 
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类 型 POINT 有 两 个 不 同 的 可 能 表示 CARTESIAN 和 POLAR ， 这 表明 ， 二 维 空间 的 几何 点 可 
以 用 笛 卡 尔 坐标 或 极 坐标 来 表示 。 每 一 种 可 能 表示 有 两 个 分 量 ， 这 两 个 分 量 都 属于 类 型 RA- 
TIONAL”。 特 别 注意 ， 类 型 POINT 本 身 仍 然 是 标量 的 ， 它 没有 用 户 可 见 的 分 量 。 
语法 ; 我 们 约定 ， 如 果 给 定 的 类 型 TY 有 一 种 没有 具体 名 字 的 可 能 表示 ， 那 么 这 个 可 能 表示 黑 
认命 名 为 7。 我 们 还 约定 ， 如 果 给 定 的 可 能 表示 PR 有 一 个 设 有 具体 名 字 的 分 量 ， 那 么 这 个 分 量 
名 字 默 认为 PR。 此 外 ， 每 一 个 POSSREP 的 声明 都 可 能 引起 下 面 几 种 操作 符 的 自动 定义 : 
选择 子 (selector) 操作 符 ， 它 允许 用 户 通过 给 定 可 能 表示 的 每 个 分 量 的 值 ， 指 定 或 选择 
类 型 的 一 个 值 。 
as THE 操作 符 (对 应 于 每 个 可 能 表示 的 分 量 ) 的 集合 。 用 户 可 以 利用 它 来 获得 类 型 的 值 的 
可 能 表示 的 分 量 。 
注意 : 当 我 们 提 到 POSSREP 声明 会 引起 这 些 操作 符 的 “自动 定义 ”， 我 们 指 的 是 负责 实现 
类 型 的 系统 或 者 用 户 同样 要 负责 实现 这 些 操作 符 。 
例如 ， 这 里 有 针对 类 型 POINT 调用 选择 子 和 THE_ 操 作 符 的 几 个 例子 : 
CARTESIAN ( 5.0, 2.5 ) 
/* selects the point with x = 5.0, y = 2.5 */ 


CARTESIAN ( Xl1, Yl1 ) 
/* selects the point with x = Xl, y = Y1, where */ 
/* Xl and Y1 are variables of type RATIONAL */ 


POLAR ( 2.7, 1.0 ) 
/* selects the point with rr = 2.7,06= 1.0 */ 


THE X ( 了 )} 
/* denotes the x coordinate of the point in */ 
/* P, where P is a variable of type POINT */ 


THE R{P) 

/* denotes the r coordinate of the point in P */ 
THE Y ( exp ) 

/* denotes the y coordinate of the point denoted */ 
/* by the expression exp (which is of type POINT) */ 


注意 ，(a) 选择 子 与 相应 的 可 能 表示 有 相同 的 名 字 。(b) THE_ 操 作 符 形 如 THE_C， 其 中 C 
表示 相应 可 能 表示 的 相应 分 量 的 名 字 。 注 意 ， 选择 子 (或 者 说 ， 选 择 子 调用 ) 是 对 大 家 所 熟悉 
的 文字 (literal) 的 概括 (所 有 的 文字 都 是 选择 子 调用 ,但 并 非 所 有 的 选择 子 调用 都 是 文字 ， 实 
际 上 ， 只 有 选择 操作 符 中 所 有 的 自 变量 依次 都 是 文字 的 ， 这 个 选择 子 调用 才 是 文字 的 ) 。 

为 了 搞 清楚 前 面 所 说 的 在 实际 系统 中 如 何 工作 ， 假 设 点 的 物理 表示 用 笛 卡尔 积 坐标 〈 尽 管 
物理 表示 没有 必要 用 所 讲 的 任何 一 种 方式 来 表示 ) 。 于 是 系统 提供 某 种 受 高 度 保护 的 操作 符 一 一 
下 面 用 斜体 的 伪 代 码 表示 一 一 用 以 有 效 地 表现 物理 表示 ， 并且， 类 型 的 实现 者 会 用 这 些 操作 符 来 
实现 必要 的 CARTESIAN 和 POLAR 选择 子 。( 显然 ， 类 型 实现 者 是 一 般 规则 的 例外 。 这 个 规则 
是 ， 用 户 涉 及 不 到 物理 表示 。) 例如 : 


OPERATOR CARTESIAN ( X RATIONAL, Y RATIONAL ) RETURNS POINT ; 








BEGIN ; 
VAR P POINT ，; /* P is a variable of type POINT */ 
X component of physical representation of P := X; 
Y component of physical representation of P := YY )， 
RETURN ( P ); 


END ; 
END OPERATOR ， 


OPERATOR POLAR ( R RATIONAL, 0 RATIONAL ) RETURNS POINT ; 
RETURN ( CARTESIAN ( R* COS (8),R*SIN(88))); 
END OPERATOR ; ， 





G 〇 Tutorial D 使 用 更 精确 的 RATIONAL 来 代替 熟悉 的 REAL。 顺 便 说 -- 句 ，RATIONAL 可 能 更 像 一 个 内 图 类 型 的 
例子 ， 而 不 是 一 个 已 声明 的 可 能 表示 。 比 如 说 ，530. 00 和 5. 3E2 可 能 都 表示 同一 个 RATIONAL 值 ， 也 就 是 说 
它们 可 能 使 用 两 个 不 同 的 RATIONAL 选择 子 操作 符 的 不 同 但 等 价 的 调用 ( 见 随 后 的 讨论 ) 。 
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在 上 面 的 代码 中 ，POLAR 的 定义 用 到 了 CARTESIAN 选择 子 ， 也 用 到 了 (假设 是 内 置 的 ) 
操作 符 SIN 和 COS。POLAR 的 定义 也 可 以 直接 用 那些 受 保护 的 操作 符 来 表示 ， 如 下 : 


OPERATOR POLAR ( R RATIONAL, 0 RATIONAL ) RETURNS POINT ; 
BEGIN ; 
VAR P POINT }; 
X component of physical representation of P 
:= Rayxyxcos (6) : 
Y component of physical representation of P 
:= R* SIN({0}); 
RETURN ({ P),，; 
END ，; 
END OPERATOR ; 


类 型 实现 者 也 会 用 那些 受 保护 的 操作 符 实现 必要 的 THE_ 操作 符 ， 如 下 所 示 : 


OPERATOR THE X ( P POINT ) RETURNS RATIONAL ; 
RETURN ( X component of physical representation of P ); 
END OPERATOR ;，; 


OPERATOR THE Y ( P POINT ) RETURNS RATIONALD ; 
RETURN ( Y component of physical representation of P ); 
END OPERATOR ，; 


OPERATOR THE R { P POINT ) RETURNS RATIONAL ; 

RETURN ( SQRT ( THE X ( P ) *x* 2 + THE Y(P) ** 2 ) ) ; 

END OPERATOR ，; 

OPERATOR THE 0 ( P POINT ) RETURNS RATIONAL ; 

RETURN ( ARCTAN ( THE Y {PP) / THE X (PP) )):; 

END OPERATOR ;，} 

从 上 面 可 看 到 ，THE_R 和 THE._6 的 定义 利用 了 THE_X 和 THE_Y， 同 时 用 到 了 SQRT 和 
ARCTAN 操作 符 (假定 是 内 图 的 ) 。 同 样 ，THE_R 和 THE_6 也 能 直接 通过 受 保护 的 操作 符 来 定 
义 〈 详 细 的 实现 作为 一 个 练习 ) 。 

关于 POINT 的 例子 就 到 此 为 止 。 然 而 ， 所 有 上 面 讨 论 的 内 容 也 可 以 应 用 于 简单 的 类 


型 ? 一 一 例如 QTY， 理 解 这 一 点 很 重要 。 这 里 有 一 些 例子 : 
QTY ( 100 ) 
QTY (N) 
QTY ( Nl1 - N2 ) 


这 里 有 几 个 有 关 THE_ 操 作 符 调用 的 例子 : 
THE QTY ( Q ) 
THE QTY ( Ql - Q2 ) 


注意 : 我 们 假定 在 这 些 例子 中 ，(a) N，NI 和 NN2 都 是 INTEGER 类 型 的 变量 ，(b) 8, Q1 
和 02 都 是 QTY 类 型 的 变量 ，(c)“ - ”是 多 形态 操作 符 ， 它 适用 于 INTEGER 和 QTY 类 型 。 

特别 强调 的 是 ， 值 都 是 有 类 型 的 ， 因 此 对 “ 某 种 货物 供 货 量 是 100” 的 说 法 ， 严 格 来 讲 就 是 
不 正确 的 。 这 里 的 数量 是 类 型 QTY 的 一 个 值 ， 而 不 是 INTEGER 的 一 个 值 。 因 此 ， 对 于 供 货 量 应 
该 更 准确 地 说 是 QTY (100) ， 而 不 是 简单 的 100。 然 而 ， 在 非 正 式 的 上 下 文中 ， 不 用 如 此 精确 ， 
这 样 就 用 100 替代 QTY (100) ， 以 图 方便 。 注 意 ， 本 书 在 供应 商 和 零件 数据 库 和 供应 商 - 零 
件 - 工程 数据 库 中 使 用 这 样 的 缩写 〈 见 图 3-8 和 图 4-5 ) 。 

下 面 给 出 最 后 一 个 关于 类 型 定义 的 例子 ， 


TYPE LINESEG POSSREP { BEGIN POINT, END POINT } ; 





@ ”特别 包括 内 建 类 型 ， 虽 然 (由 于 历史 原因 ) 相应 的 选择 子 和 THE_ 操 作 符 可 能 背离 了 本 节 描 述 的 句法 和 其 他 规 
则 。 更 进一步 的 讨论 请 参见 [3. 3]。 
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类 型 LINESEG 表示 线段 。 这 个 例子 证 明 一 种 给 定 的 可 能 表示 当然 可 以 利用 用 户 定义 的 类 型 来 定 
义 ， 而 不 是 像 前 面 的 例子 那样 只 使 用 系统 定义 的 类 型 (也 就 是 说 ， 用 户 定义 类 型 也 是 真正 的 
类 型 ) 。 

最 后 注意 ， 本 小 节 关于 可 能 表示 和 相关 问题 的 例子 都 特别 包含 标量 类 型 ， 但 是 非 标 量 类 型 也 
有 可 能 表示 。 这 个 问题 在 5.6 节 说 明 。 


5. 4 类 型 定义 


Tutorial D 中 的 新 类 型 既 可 以 通过 前 面 章节 的 例子 提 到 的 TYPE 语句 定义 ， 也 可 以 使 用 类 型 
生成 子 定义 。 本 书 在 5. 6 节 具 体 说 明 类 型 生成 子 以 及 相关 的 如 何 定义 非 标量 类 型 的 问题 。 在 这 一 
节 ， 我 们 仔细 讨论 TYPE 语句 。 首 先 以 标量 类 型 WEIGHT 的 定义 为 例 : 


TYPE WEIGHT POSSREP { D DECIMAL (5,1) 
CONSTRAINT D > 0.0 AND D < 5000.0 }; 


解释 : WEIGHT 用 5 位 十 进 制 数 表示 ， 精 确 到 小 数 点 后 一 位 ， 这 个 数 的 大 小 大 于 0， 小 于 
5000。 注 意 : 上 面 的 语句 为 WEIGHT 类 型 定义 了 类 型 约束 (type constraint) 。 通 常 ， 类 型 了 的 类 
型 约束 ， 准 确 地 说 ， 就 是 对 类 型 了 的 一 组 数值 的 定义 。 如 果 给 定 的 POSSREP 声明 没有 包含 显 式 
的 约束 说 明 ， 那 么 就 是 默认 的 约束 。( 例 中 ， 即 使 忽略 掉 CONSTRAINT 约束 ，WEIGHT 类 型 的 
有 效 值 必须 是 最 多 5 位 十 进 制 数 ， 精 确 到 小 数 点 一 位 。) 

WEIGHT 的 例子 还 涉及 到 了 另 一 点 ， 在 第 3 章 3.9 节 我 们 说 到 部 分 重量 是 以 磅 计算 。 
但 是 将 类 型 本 身 和 单位 捆绑 在 一 起 并 不 是 一 个 好 主意 (这 里 的 术语 单位 指 的 是 度量 单位 )。 
根据 文献 [3.3] ， 我 们 允许 用 户 将 重量 按照 磅 或 者 按照 克 来 度量 ， 提 供 不 同 的 可 能 表达 
式 ， 这 样 ， 

TYPE WEIGHT 

POSSREP LBS { L DECIMAL (5,1) 
CONSTRAINT L > 0.0 AND L < 5000.0 》 
POSSREP GMS { G DECIMAL {7,1) 
CONSTRAINT G > 0.0 AND G < 2270000.0 
AND MOD ( G, 45.4 ) = 0.0};，; 

注意 : POSSREP 声明 包括 约束 说 明 ， 而 且 这 两 个 约束 说 明 逻 辑 等 价 ( MOD 是 一 种 将 
两 个 数字 操作 数 进行 相 除 取 余 数 的 操作 ; 我 们 简化 问题 ， 假 定 一 磅 等 于 454 克 ) 。 给 出 这 样 
的 定义 : 

m 如 果 W 是 WEIGHT 类 型 的 表达 式 ， 那 么 THE_L(W) 返 回 一 个 十 进 制 值 (5,1) ， 表 示 相 应 

重量 的 磅 数 。 当 THE_G(W) 返 回 一 个 十 进 制 值 (7,1) ， 表 示 相 应 重量 的 克 数 。 

ma 如 果 NN 是 十 进 制 ($,1) 类 型 的 表达 式 ， 那 么 LBS(N) 和 GMS(454 * N) 将 返回 同样 的 

WEIGHT 值 。 
这 里 ， 我 们 来 看 在 Tutorial D 语法 中 定义 一 个 标量 类 型 ; 


<type def> 
::= TYPE <type name> <possrep def list> } 


<possrep def> 
POSSREP [ <possrep name> ] 
{ <possrep component def commalist> 
{ <possrep constraint def> ] } 


<possrep component def> 
: { <possrep component name> ] <type name> 


<possrep constraint. def> 
CONSTRAINT <bool exp> 
从 语法 中 可 以 得 出 (大 部 分 可 以 从 两 个 WEIGHT 例子 中 得 到 证 明 ) : 
1) 语法 利用 了 list 和 commalist。commalist 术语 的 定义 见 第 4 章 (4.6 节 ): list 术语 的 定义 
近似 为 ，< xyz > 表示 为 任意 符合 造句 法 的 类 别 〈 也 就 是 ， 出 现在 BNF 产生 规则 左边 的 任何 东 
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西 ) ， 那 么 表达 式 < xyz list > 表示 零 个 或 者 多 个 <xyz > 的 序列 ， 每 一 对 邻近 的 <jz > 之 间 几 一 个 
或 多 个 空白 分 开 。 

2) <possrep def list > 必须 包含 至 少 一 个 <possrep def >。 < possrep component def commalist > 
必须 包含 至 少 一 个 < possrep component def > 。 

3) 括号 “[ ] ”表示 插 号 里 面 的 内 容 是 可 选 的 (就 像 标 准 的 BNF 符号 ) 。 相 对 应 的 ， 大 括号 
“11” 代 表 内 容 本 身 ， 也 就 是 它们 都 是 在 语言 中 已 经 定义 好 了 的 符号 ， 不 是 元 语言 符号 。 精 确 地 
说 ， 如 果 commalist 要 表示 一 组 项 ， 那 么 使 用 大 括号 来 封装 commalist (这 意味 着 这 些 项 的 顺序 不 
重要 ， 而 且 没 有 一 项 出 现 次 数 超过 一 次 ) 。 

4) 通常 ，< bool exp > (“ 布 尔 表 达 式 ”") 表示 一 个 真 值 ( 真 或 假 ) 。 < bool exp > 不 会 用 变 
量 ， 但 是 <possrep def > 中 的 < possrep component name > 用 于 表示 所 讨论 的 标量 类 型 的 任意 值 的 
适合 可 能 表达 式 的 相应 组 件 。 注 意 : 布尔 表达 式 也 称 为 条 件 、 真 值 或 者 逻辑 表达 式 。 

5) <type def > 和 物理 表示 毫 无 关系 。 更 准确 地 说 ， 这 样 的 表示 必定 被 指定 为 概念 模式 /内 
模式 间 的 上 映像 ( 见 2.6 节 )。 

6) 定义 一 个 新 的 类 型 ， 系 统 必定 在 目录 中 建立 一 个 条 目 来 描述 这 个 新 类 型 ( 如果 需要 刷新 
存储 器 来 查看 这 个 目录 ,参照 3.6 节 ) 。 类 似 的 说 明 也 适用 于 操作 符 定义 〈( 见 5.5 节 )。 

下 面 是 供应 商 和 零件 数据 库 中 使 用 的 标量 类 型 的 定义 (除了 已 讨论 过 的 WEIGHT 类 型 ) 。 出 
于 简化 ， 忽 略 了 约束 说 明 。 

TYPE S# POSSREP { CHAR } ; 

TYPE NAME POSSREP { CHAR } ; 

TYPE P# POSSREP { CHAR ) ; 

{ 


TYPE COLOR POSSREP 
TYPE QTY POSSREP 


(回顾 第 3 章 ， 供 应 商 STATUS 属性 和 供应 商 和 零件 CITY 属性 都 是 根据 内 置 类 型 定义 而 不 是 用 
户 定义 类 型 ， 所 以 这 些 属性 没有 对 应 的 类 型 定义 。) 
当然 ， 如 果 不 再 使 用 这 个 类 型 ， 就 要 删除 这 个 类 型 ， 


DROP TYPE <type name> } 


这 个 < type name > 必须 定义 为 用 户 自 定义 类 型 ， 而 不 是 内 置 类 型 。 这 个 操作 导致 系统 目录 
中 描述 这 个 类 型 的 条 目 被 删除 ， 那 么 这 个 类 型 不 再 被 系统 所 知 。 简 单 地 说 ， 如 果 这 个 类 型 还 在 某 
处 使 用 一 一 特别 是 某 个 关系 变量 定义 成 这 个 类 型 ， 那 么 我 们 假定 DROP TYPE 失败 。 

最 后 指出 ， 定 义 类 型 的 操作 实际 上 不 能 产生 相应 的 一 组 值 ， 理 论 上 ， 这 些 值 已 经 存在 ， 而 且 
一 直 存在 〈 比 如 说 NTEGER 类 型 ) 。 这 样 ， 所 有 的 “定义 类 型 ”操作 一 一 比如 Tutorial D 中 的 
TYPE 语句 一 一 真正 做 的 就 是 给 这 组 值 赋予 名 字 。 同 样 地 ，DROP TYPE 语句 实际 不 能 删除 相应 
的 值 ， 它 主要 删除 相应 的 TYPE 语句 所 产生 的 名 字 。 


5.5 操作 符 


到 此 为 止 ， 我 们 在 这 一 章 看 到 的 所 有 操作 符 定义 要 么 是 选择 子 操作 符 ， 要 么 是 THE_ 操 作 
符 ; 现在 我 们 将 了 解 一 下 通常 的 操作 符 定义 。 第 一 个 例子 是 用 户 定义 操作 符 ABS， 用 于 用 户 定 
义 类 型 RATIONAL 中 : 

OPERATOR ABS ( 2% RATIONAL ) RETURNS RATIONAL ; 
RETURN ( CASE 
WHEN Z > 0.0 THEN +% 
WHEN 2 < 0.0 THEN -2 


END CASE ) ; 
END OPERATOR ; 


操作 符 ABS (absolute value) 定义 成 只 有 一 个 参数 Z， 类 型 为 RATIONAL， 返 回 一 个 相同 类 
型 的 值 。 这 样 。ABS 的 调用 比如 ABS (AMTI1 + AMT2 ) 一 一 根据 定义 ， 是 一 个 RATIONAL 


类 型 的 表达 式 。 
下 一 个 例子 ，DIST (distance between) 有 两 个 参数 ， 一 个 是 用 户 定 义 类 型 POINT， 返 回 另 


CHAR } ) 
INTEGER } ，; 
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一 个 结果 LENGTH. 


OPERATOR DIST ( Pl POINT, P2 POINT ) RETURNS LENGTH ;} 
里 


RETURN ( WITH THE X ( Pl ) AS X1 
THE YX ( P2 ) AS X2 
THE YY ( Pl ) AS YL ， 


LENGTH ( SQRT ( Xl - X2 ) ** 2 


) 
) 
THE Y ( P2 ) AS Y2 : 
( 
+ (Yi-Y2)**2))); 


END OPERATOR :; 


假设 LENGTH 选择 子 带 有 一 个 RATIONAL 类 型 的 参数 。 注 意 WITH 子 句 的 使 用 作为 某 种 子 表达 
式 的 结果 的 名 称 。 在 这 一 章 的 后 面部 分 会 提 到 这 个 结构 的 使 用 。 

接 下 来 的 例子 是 类 型 POINT 的 “ =”( 相 等 ” ) 比较 操作 符 : 

OPERATOR EQ ( Pl POINT，P2 POINT ) RETURNS BOOLEAN ，; 

RETURN ( THE _X { Pl } = THE X ( P2 ) AND 
THE Y ( Pl ) = THEY ( P2)); 

END OPERATOR ; 
RETURN 语句 的 表述 中 对 类 型 RATIONAL 使 用 了 系统 内 置 操作 符 “ = ”"。 为 简单 起 见 ， 假 定 符 
号 “ =” 可 以 用 在 等 价 的 操作 符 中 (可 针对 所 有 类 型 ， 而 不 仅仅 是 POINT) ; 我 们 不 考虑 这 样 的 
插入 符号 在 实际 中 怎样 说 明 ， 因 为 这 只 是 一 个 语法 的 问题 。 

下 面 是 类 型 QTY 的 “> ”操作 符 : 

OPERATOR GT ( Ql QTY, Q2 QTY ) RETURNS BOOLEAN }; 

RETURN ( THE_ QTY (Ql ) > THE_QTY (oz ) ) :; 

END OPERATOR ;，; 
RETURN 语句 的 表述 中 对 类 型 INTEGER 使 用 了 系统 内 置 操作 符 “ > ”。 同 样 ， 假 定 这 一 操作 符 
用 于 所 有 可 排序 的 类 型 上 ， 而 不 只 是 类 型 QTY (实际 上 上， 从 定义 看 ， 可 排序 的 类 型 就 是 能 应 用 

> ”的 类 型 。 不 能 排序 的 类 型 的 简单 例子 是 类 型 POINT ) 。 

最 后 是 一 个 关于 更 新 操作 符 定 义 的 例子 (前面 所 有 的 例子 中 都 是 只 读 操 作 符 ， 除 了 局 部 变 
量 ， 这 些 操作 符 不 能 更 新 其 他 任何 变量 .2 可 以 看 到 ， 定 义 中 包含 了 一 个 UPDATES 说 明 ， 而 不 
是 RETURNS 说 明 ; 更 新 操作 符 没有 返回 值 ， 并 且 必 须 被 显 式 的 CALL 调用 [3.31。 


OPERATOR REFLECT ( P POINT ) UPDRTES P ; 
BEGIN ，; 


THE X ( P ) := - THEX(P); 
THE Y (P) := - THEY (PP ) ， 
RETURN 


END OPERATOR ; 


REFLECT 操作 符 能 有 效 地 移动 第 卡尔 坐标 的 点 (x，y) 到 相反 的 位 置 ( -x，-y); 它 通 
过 适当 修改 点 的 参数 来 实现 。 注 意 这 个 例子 中 “THE_ 伪 变量 ”的 使 用 。THE_ 伪 变量 是 THE_ 操 
作 符 在 目标 位 置 的 一 个 调用 (特别 地 ， 在 一 个 赋值 的 左边 )。 这 样 的 一 个 调用 实际 上 是 指定 一 一 
优 于 简单 地 返回 值 一 一 参数 的 特定 分 量 (应 用 的 可 能 表示 )。 例 如 ， 在 REFLECT 的 定义 中 ,下 
面 的 赋值 实际 上 是 根据 参数 P 给 参数 变量 的 分 量 X 赋 了 一 个 值 : 


THE X ( P ) := 
当然 ， 任 何 被 更 新 操作 符 修改 的 参数 变量 (特别 是 给 THE_ 伪 变量 赋值 ) 必须 特别 地 作为 一 个 变 


量 指定 ， 而 不 是 作为 一 般 的 表达 式 。 
伪 变 量 可 以 说 套 , 例如 : 





@ “相等 ”(equality》 操作 符 比 一 致 (identity) 要 好 一 些 ， 因 为 当 且 仅 当 v1、 避 有 相同 的 值 时 vi = 吧 。 
加 ”只 读 和 更 新 操作 符 也 称 为 观察 者 和 存 取 器 ， 对 应 于 对 象 系统 〈 见 第 25 章 ) 。 函 数 是 只 读 操作 符 的 另 “个 同 义 间 
(本 书 偶 尔 会 用 到 ) 。 





72 彩 二 部 分 关系 榜 型 


VAR LS LINESEG ， 


THE X ( THE BEGIN ( LS ) ) := 6.5 ; 
THE _ 伪 变量 实际 在 逻辑 上 是 不 必要 的 。 考 虑 下 面 这 个 赋值 : 
THE X (P) := - THEX(P); 
这 个 赋值 使 用 伪 变 量 ， 逻 辑 上 等 价 于 下 面 不 使 用 伪 变 量 的 赋值 语句 : 
P := CARTESIAN ( - THE X ( P )，THE Y (PP ) ) ; 
间 样 地 ， 
THE X ( THE BEGIN ( LS ) ) := 6.5; 
逻辑 上 等 价 于 
LS := LINESEG ( CARTESIAN ( 6.5 


THE Y ( THE BEGIN ( LS ) ) ) ， 
THE END ( LS ) )，; 

总 之 ， 严 格 地 说 ， 伪 变量 本 身 对 于 支持 某 种 组 件 层 次 的 更 新 来 说 并 不 必要 。 然 而 ， 伪 变量 方 
法 比 替 换 方 法 〈 可 认为 是 一 种 简略 表达 方式 ) 更 直观 。 此 外 ， 它 在 相应 的 选择 子 操作 符 的 语法 
改变 上 提供 更 高 程度 的 不 透 性 。( 它 的 有 效 实现 也 更 容易 一 些 。) 

考虑 简略 表达 方式 的 时 候 ， 只 有 只 读 更 新 操作 符 在 逻辑 上 是 必要 的 ， 它 也 就 是 实际 中 的 赋值 
(: =)。 其 他 的 更 新 操作 符 可 以 根据 赋值 定义 〈 实 际 上 我 们 已 经 从 第 3 章 ， 关 系 更 新 操作 符 的 
例子 中 了 解 了 这 一 点 ) 。 然 而 ， 我 们 要 求 支 持 一 个 多 形式 赋值 ， 人 允许 任何 数目 的 单独 赋值 “ 同 
时 ”实现 [3.3]。 比 如 ， 通 过 下 面 的 多 赋值 来 替换 REFLECT 操作 符 定义 中 的 两 个 赋值 : 

THE X (PP) 

THE YY ( P ) 
(注意 逗号 分 隔 符 ) 。 语 义 如 下 : 首先 ， 所 有 的 右边 源 表 达 式 被 计算 ; 然后 ， 所 有 单独 赋值 依次 
执行 。” 注意 : 既然 多 赋值 被 认为 是 一 个 单一 操作 ， 就 不 需要 在 赋值 过 程 中 进行 完整 性 检查 ; 这 
才 是 我 们 为 什么 把 对 多 赋值 的 支持 放 在 第 一 位 的 真正 原因 。 第 9 章 和 第 16 章 有 更 详细 的 讨论 。 

最 后 ， 如 果 一 个 操作 符 不 再 被 使 用 ， 必 须 能 够 删除 掉 ， 例 如 ; 


DROP OPERATOR REFLECT ; 
被 删除 的 操作 符 必 须 是 用 户 定义 的 ， 而 不 是 系统 内 建 的 。 


1. 类 型 转换 
再 次 考虑 下 面 的 类 型 定义 : 


TYPE S# POSSREP { CHAR } ; 

默认 情况 下 ， 这 里 的 可 能 表示 为 名 字 S#， 相 应 的 选择 子 操作 符 同 样 如 此 。 因 此 ， 下面 是 一 
个 有 效 的 选择 子 调用 : 

Ss# ('81') 
( 它 返回 某 个 供应 商号 码 ) 。 注 意 ， 选择 子 S# 因 此 可 被 视 为 把 字符 串 转换 为 供应 商号 码 的 类 型 转 


换 符 ; 类 似 地 ， 选 择 子 P# 可 被 视 为 把 字符 串 转 换 为 零件 号 码 的 类 型 转换 符 ，QTY 选择 子 可 被 视 
为 把 整数 转换 为 数量 的 类 型 转换 符 ; 等 等 。 


- THE X ( P ) ， 
- THEY (了 P ) ; 





OG 这 个 定义 在 有 两 个 或 者 多 个 单独 的 赋值 指向 同一 个 目标 变量 的 情况 下 需要 一 些 改 进 。 这 个 细节 超出 了 本 书 的 范 
屿 ， 假 如 要 满足 这 些 赋值 给 出 期 望 的 结果 ， 不 同 的 单独 赋值 应 更 新 闻 一 个 目标 变量 的 不 同 部 分 (一 个 重要 的 
特例 ) 。 





费 5 和 介 类 型 73 





THE_ 操 作 符 可 被 视 为 执行 反方 向 类 型 转换 的 操作 符 。 比 如 ， 回 顾 5.4 节 开 始 部 分 中 类 型 
WEIGHT 的 定义 : 


TYPE WEIGHT POSSREP { D DECIMAL (5,1) 
CONSTRAINT D > 0.0 AND D < 5000.0 } :; 


如 果 W 是 WEIGHT 类 型 ， 那 么 表达 式 


THE D (W) 


有 效 地 将 W 表示 的 重量 转化 成 DECIMAL(5 ,1) 数 量 。 

现在 , 在 5.2 节 中 看 出 (a) 赋值 中 的 源 和 目标 都 是 同一 类 型 ，(b) 相等 比较 中 的 被 比较 数 
必须 是 同一 类 型 。 在 一 些 系统 中 ,这些 规 则 并 没有 直接 强制 执行 ; 系统 中 可 能 会 有 这 样 的 比较 ， 
比如 说 一 个 零件 号 码 和 一 个 字符 串 的 比较 ， 在 WHERE 子 句 中 ， 像 这 样 : 


。。 WHERE P# = 'P2"' 


这 里 左边 的 比较 字 是 P# 类 型 ， 右 边 的 比较 字 是 CHAR 类 型 ; 表面 上 这 个 比较 会 因为 类 型 错误 失 
败 (编译 时 间 出 现 类 型 错误 ) 。 理 论 上 ， 系 统 会 意识 到 可 以 使 用 P# 的 转换 操作 符 〈 换 句 话说 就 
是 P# 选 择 子 ) 将 CHAR 类 型 的 比较 字 转 换 成 P# 类 型 ， 这 样 重 写 比 较 如 下 : 


..。 WHERE P# = P# ('P2') 


这 样 的 比较 才 算是 有 效 。 

隐 式 调用 这 个 转换 操作 符 被 称 为 强制 (coercion) 执行 。 然 而 ， 强 制 执行 会 导致 程序 bug。 
因为 这 个 原因 ， 我 们 调整 转换 位 置 ， 本 书 中 不 允许 强制 执行 一 一 操作 数 必 须 是 适当 的 类 型 ， 不 是 
强制 的 某 些 类 型 。 当 然 ， 允 许 在 必要 的 时 候 定义 和 调用 类 型 转换 操作 符 (或 者 通常 称 为 
“CAST” 操 作 符 ) ， 比 如 : 


CAST AS CHAR ( 530.06 ) 


正如 前 面 指出 ， 选 择 子 ( 至少 有 一 个 参数 ) 被 认为 是 一 种 转换 操作 符 。 

现在 ,你 已 经 意识 到 这 里 讨论 的 内 容 在 编程 语言 中 称 为 强 类 型 。 不 同 作者 对 于 这 个 术语 的 定 
义 会 稍 有 不 同 ; 这 里 ， 它 指 的 是 (a) 每 个 值 都 有 一 个 类 型 ，(b) 当 完 成 一 个 操作 的 时 候 ， 系 统 
检查 操作 数 是 不 是 这 个 操作 的 正确 类 型 。 比 如 ， 考 虑 下 面 的 表达 式 : 


WEIGHT + QTY /* e.g., part weight plus shipment quantity */ 





WEIGHT * QTY /* e.g., part weight times shipment quantity */ 


第 一 个 表达 式 没有 意义 ， 系 统 会 拒绝 它 。 另 一 方面 ， 第 二 个 有 意义 ， 它 表示 所 有 发 货 零 件 的 
总 重量 。 所 以 定义 的 重量 和 数量 操作 符 应 该 包含 * 而 不 是 + 。 

这 里 有 几 个 例子 , 包含 比较 操作 : 

WEIGHT > QTY 

EVEN > ODD 


(第 二 个 例子 中 假定 EVEN 是 EVEN_INTEGER 类 型 ，ODD 是 ODD_INTEGER 类 型 ， 语 义 明 显 。) 
这 样 ， 第 一 个 表达 式 没 有 意义 ,但 是 第 二 个 表达 式 就 有 意义 。 因 此 定义 的 重量 和 数量 的 操作 符 不 
能 包括 “ >”, 但 是 对 于 偶数 和 奇数 来 说 就 可 以 。 (对 于 在 什么 类 型 上 什么 操作 符 有 效 ， 我 们 参 
考 历史 上 大 部 分 数据 库 文献 一 一 也 包括 这 本 书 的 早期 版 本 一 一 只 考虑 比较 操作 符 而 忽视 其 他 的 操 
作 符 ， 比 如 + 和 * 。) 








”实际 上 EVEN_INTEGER 和 ODD_INTEGER 都 是 INTEGER 的 子 类 型 ,“ > ”操作 符 是 从 后 面 的 类 型 中 继承 过 来 
的 〈 见 第 20 章 ) 。 
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2. 小 结 

这 一 节 介 绍 的 对 类 型 的 完全 支持 蕴涵 了 很 多 重要 的 东西 ， 现 简要 地 概括 如 下 : 

首先 日 最 重要 的 是 ， 它 意味 着 系统 (a) 确切 知道 娜 一 个 表达 式 是 合法 的 ，(b) 知道 合法 
表达 式 的 结果 的 类 型 。 

s 它 也 意味 着 一 个 给 定 的 数据 库 中 所 有 类 型 的 集合 是 一 个 封闭 集 一 一 也 就 是 说 ， 每 一 个 合法 
表达 式 的 结果 的 类 型 对 系统 是 可 知 的 。 特 别 地 ， 如 果 比 较 式 是 合法 的 表达 式 ， 这 个 类 型 的 
封闭 集 必须 包含 布尔 型 或 真 值 型 ! 

sm 特别 地 ， 由 于 系统 知道 每 一 个 合法 表达 式 的 结果 的 类 型 ， 因 此 它 知 道 哪 一 个 赋值 是 合法 
的 ， 也 知道 哪 一 个 比较 是 合法 的 。 

最 后 说 明 一 点 ， 我 们 已 经 知道 域 是 一 个 任意 复杂 的 数据 类 型 ， 它 可 以 是 系统 定义 的 ， 也 可 以 

是 用 户 定义 的 ， 并 且 它 的 值 只 能 被 定义 在 有 关 类 型 上 的 操作 符 操作 (并 且 它 的 物理 表示 对 用 户 
是 隐藏 的 ) 。 而 对 对 象 系统 而 言 ， 可 以 看 出 最 基本 的 对 象 概念 〈 即 对 象 类 ) 就 是 一 种 由 系统 或 用 
户 定义 的 任意 复杂 的 数据 类 型 ， 其 值 只 能 通过 定义 在 有 关 类 型 上 的 操作 符 操作 (并 且 它 的 物理 
表示 对 用 户 是 隐藏 的 ) …… 换 名 话说， 域 和 对 象 类 是 同样 的 事情 ! 这 是 把 这 两 项 技术 (关系 和 
对 象 ) 结合 在 一 起 的 关键 。 第 26 章 将 详细 论述 这 一 重要 问题 。 


5.6 类 型 生成 子 


现在 考虑 那些 不 用 TYPE 语句 定义 而 是 用 某 种 类 型 生成 子 调用 获得 的 类 型 。 抽 象 地 说 ， 类 型 
生成 子 是 某 种 操作 符 ， 因 为 它 返 回 类 型 而 不 是 简单 的 标量 值 。 例 如 ， 在 常规 的 编程 语言 中 是 这 样 
表示 : 


VAR SALES ARRAY INTEGER [12] ; 


来 定义 一 个 变量 SALES ， 它 的 有 效 值 是 12 个 整数 的 一 维 数组 。 在 这 个 例子 中 ， 表 达 式 ARRAY 
INTEGER[ 12 ] 可 被 视 为 ARRAY 类 型 生成 子 的 调用 ， 它 返回 一 个 特殊 的 数组 类 型 。 这 个 特殊 的 
数组 类 型 就 是 类 型 生成 子 。 在 此 有 几 点 需要 指出 : 

1) 文献 中 类 型 生成 子 有 多 个 名 字 ， 包 括 类 型 构造 器 ， 参 数 化 类 型 ， 多 形态 类 型 ， 类 型 模板 
和 通用 类 型 。 这 里 采用 术语 类 型 生成 子 。 

2) 生成 的 类 型 是 真正 的 类 型 ， 能 够 用 在 任何 普通 的 “ 非 生成 ”类 型 使 用 的 地 方 。 比 如 ， 定 
义 某 种 关系 变量 ， 使 它 包含 ARRAY INTEGER[ 12 ] 类 型 的 属性 。 对 应 地 ， 这 样 的 类 型 生成 子 就 
不 是 类 型 。 

3) 大 多 数 生 成 的 类 型 (尽管 不 是 所 有 ) 都 是 非 标量 类 型 (数组 类 型 就 是 这 样 的 例子 )。5. 4 
节 中 已 经 介绍 了 如 何 定义 非 标量 类 型 。 注 意 : 不 直接 调用 某 些 类 型 生成 子 也 可 以 定义 非 标量 类 
型 ， 这 里 我 们 不 进一步 考虑 这 样 的 情况 。 

4) 为 清晰 起 见 ， 生 成 的 类 型 被 认为 是 系统 定义 类 型 ， 因 为 它们 是 通过 调用 系统 定义 的 类 型 
生成 子 获得 的 。 注 意 : 实际 这 里 过 于 简化 了 ， 尤 其 是 没有 排除 用 户 定义 自己 的 类 型 生成 子 的 可 
能 ， 在 本 书 中 不 考虑 这 种 可 能 。 

现在 ， 生 成 的 类 型 有 可 能 表示 (简称 “possrep”) ， 这 个 可 能 表示 来 自 以 下 方式 : (a) 应 用 
于 类 型 生成 子 的 一 般 的 possrep; (b) 特定 的 类 型 生成 子 的 用 户 可 见 的 组 件 的 特殊 possrep。 在 
ARRAY INTEGER[ 12] 的 例子 中 ， 

a 通常 有 一 些 通用 possrep 用 于 一 维 数组 ， 比 如 说 相 邻 的 数组 元 素 通过 从 低 到 高 的 下 标 来 定 

义 (在 本 例 中 低 和 高 是 指 1 和 12)。 
a 用 户 可 见 的 组 件 就 是 指 刚 刚 提 到 的 12 个 数组 元 素 ， 它 们 有 定义 成 INTEGER 类 型 的 possrep。 
它们 都 会 有 选择 子 和 THE_ 操 作 符 的 功能 ， 比 如 这 样 的 表达 式 


ARRAY INTEGER ( 2, 5, 9, 9, 15, 27, 33, 32, 25, 19, 5, 1 ) 


用 于 指定 ARRAY INTEGER [12] 类 型 的 特定 值 (“选择 子 功能 ”) 。 同 样 地 ， 表 达 式 
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SALES [3] 


可 以 用 于 访问 数组 值 的 第 三 个 组 件 〈 也 就 是 第 三 个 数组 元 素 ) ， 这 个 组 件 是 数组 变量 SALES 的 
当前 值 (THE_ 操 作 符 功能 ) 。 它 也 可 以 用 作伪 变量 。 
赋值 和 相等 比较 操作 符 也 都 适用 。 比 如 ， 这 里 是 一 个 有 效 的 赋值 : 


SALES := ARRAY INTEGER ( 2, 5, 9, 9, 15, 27, 
33, 32, 25, 19, S5, 1); 


这 里 是 一 个 有 效 的 等 值 比较 : 

SALES = ARRAY INTEGER ( 2, 5, 9, 9, 15, 27, 

33, 32, 25, 19, 5, 1) 

注意 : 任何 给 定 的 类 型 生成 子 都 包含 一 组 通用 的 约束 和 相关 的 操作 符 (通用 指 约束 和 操作 
符 都 应 用 于 任何 通过 类 型 生成 子 得 到 的 特殊 类 型 ) 。 比 如 ， 在 ARRAY 类 型 生成 子 中 : 

sm 存在 一 个 通用 的 约束 是 低 的 边界 值 不 会 超出 高 的 边界 值 。 

s 存在 一 个 通用 的 “ 反 向 ”操作 符 ， 能 够 将 任意 一 维 数组 作为 输入 ， 返 回 另 一 组 数组 ， 这 

个 数组 包含 同样 的 元 素 ， 但 是 顺序 完全 相反 。 

(实际 上 ， 选 择 子 操作 符 、THE_ 操 作 符 、 赋 值 操 作 符 、 等 值 比较 操作 符 也 是 从 某 种 通用 的 操 
作 符 中 继承 来 的 。) 

最 后 注意 ， 在 关系 世界 中 还 有 两 个 特别 重要 的 类 型 生成 器 是 TUPLE 和 RELATION。 在 下 一 
章 会 详细 介绍 。 


5.7 SQL 支持 
内 鹤 类 型 
SQL 提供 以 下 或 多 或 少 自 解释 的 内 置 类 型 ; 
BOOLEAN NUMERIC (p,qg) DATE 
BIT [ VARYING ] (n) DECIMAL (p,9g) TIME 
BINARY LARGE OBJECT (n) INTEGER TIMESTAMP 
CHARACTER [ VARYING ] (n) SMALLINT INTERVAL 


CHARACTER LARGE OBJECT (n) FLOAT (p) 


SQL 还 支持 一 些 默认 值 、 缩 写 和 替换 拼写 ， 比 如 说 CHAR 替代 CHARACTER，CLOB 替代 
CHARACTER LARGE OBJECT，BLOB 替代 BINARY LARGE OBJECT。 细 节 不 多 说 ， 有 几 点 需 
要 指出 : 

1) BIT 和 BIT VARYING 都 是 在 SQL: 1992 标准 中 加 入 的 ，SQL: 2003 中 去 掉 了 。 

2) 不 管 它 们 的 名 字 怎 样 ，(a) CLOB 和 BLOB 都 是 串 类 型 (它们 和 第 25 章 中 的 对 象 没 有 
关系 ); (b) BLOB 是 一 个 字 节 或 者 “ 八 位 字 节 ” 串 类 型 ( 它 和 二 进 制 数 没有 关系 ) 。 还 有 ， 既 
然 这 样 类 型 的 值 会 非常 大 -一 一 有 时 也 会 被 指向 长 串 类 型 一 一 SQL 提供 一 个 岂 locator 的 构造 器 允 
许 逐 字 节 访问 这 个 值 。 

3) 赋值 和 等 值 比较 操作 符 对 所 有 的 类 型 都 适用 。 等 值 比较 本 质 上 很 直观 ( 详 见 第 5 点 )。 
赋值 语句 像 这 样 : 


SET <target> = <source> } 


当然 ， 当 数据 库 执行 更 新 和 恢复 时 ， 同 时 也 隐 式 执行 了 赋值 操作 。 然 而 ， 关 系 赋值 并 不 被 支 
持 。 多 赋值 也 不 被 支持 ， 除 了 像 下 面 这 样 ,” 如果 r 行 通过 下 面 形式 语句 更 新 : 


UPDATE T SET C1 = expl, ..., Cn = expn WHERE P ; 





GG 进一步 有 两 个 例外 在 9.12 节 和 10. 6 节 。 除 了 这 些 例 外 ， 现 在 没有 产品 支持 多 赋值 。 但 我 们 还 是 期 望 和 要 求 这 
样 的 支持 ， 计 划 在 SQL: 2003 中 会 实现 。 





76 ” 萝 二 部 分 尖 夭 嫉 型 


(此 处 上 > 是 7 WHERE p 的 结果 中 的 一 行 ) ， 所 有 表达 式 exp1 ,……,expn 在 每 一 个 C1 ,…, Cn 赋 
值 执行 前 计算 。 . 
4) SQL 支持 强 类 型 ， 但 是 支持 是 有 限 的 。 在 内 置 类 型 上 使 用 特定 的 分 类 法 ， 可 以 分 成 如 下 
10 个 不 相交 的 类 别 : 
a 布尔 值 e 日 期 s 位 串 s 二进制 
m 字符 串 a 数字 a 时间 we 时 间 答 
am 年 /月 间隔 。m 天 /时 间 间 隔 
类 型 检查 基于 以 上 10 个 类 别 。 这 样 ， 例 如 数字 和 字符 串 这 样 的 比较 是 非法 的 ;而 比较 两 个 
数字 则 是 合法 的 ， 即 使 这 些 数字 属于 不 同 的 数字 类 型 ， 比 如 说 INTEGER 和 FLOAT。 (在 比较 之 
前 INTEGER 会 强制 转化 成 FLOAT。) 
5) 对 于 字符 串 类 型 一 一 CHAR(n)，CHAR VARYING(n) 和 CLOB(n) 类 型 检查 规则 非常 
复杂 ， 细 节 超 出 了 本 书 的 范围 ， 但 是 我 们 要 简要 描述 固定 长 度 的 字符 串 类 型 (比如 ，CHAR(n) 
类 型 ) : 
m 比较 : 如 果 CHAR(m ) 和 CHAR(z2 ) 类 型 的 值 相 比较 ， 短 的 字符 串 先 在 右边 填 上 空 
格 ， 使 其 长 度 与 长 的 字符 串 长 度 一 样 。 比如 ,“P2”( 长 度 为 2) 和 “P3”( 长 度 为 
3) 相等 。 

s 赋值 ， 如 果 CHAR(n1) 类 型 的 值 被 赋 给 CHAR(z2 ) 类 型 的 变量 ， 那 么 ， 在 赋值 之 前 如 果 
n] <n2，CHAR(n1) 值 在 右边 用 空格 填充 ， 或 者 如 果 m > n2 就 在 右边 截 去 达到 n2 长 度 。 
如 果 任 何 非 空 字符 在 截 除 的 过 程 中 丢失 ， 就 会 出 错 。 

进一步 的 解释 和 讨论 参看 [4.20] 。 

1. DISTINCT 类 型 

SQL 支持 两 种 用 户 定 义 类 型 ，DISTINCT 类 型 和 结构 类 型 ， 这 些 类 型 都 通过 CREATE TYPE 
语句 来 定义 。9 这 一 小 节 讨 论 DISTINCT 类 型 ， 结 构 类 型 在 下 一 节 中 讨论 (DISTINCT 大 写 是 为 
了 强调 这 个 单词 不 是 用 在 一 般 的 自然 语言 环境 中 ) 。 下 面 是 DISTINCT 类 型 WEIGHT 的 SQL 定义 
(比较 和 对 照 5.4 节 中 这 个 类 型 的 不 同 Tutorial D 定义 ) : 


CREATE TYPE WEIGHT AS DECIMAL (5,1) FINAL ; 


最 简单 的 形式 (忽略 所 有 的 可 选项 ) 的 语法 如 下 : 


CREATE TYPE <type name> RS <representation> FINAL ; 


有 几 点 要 指出 : 

1) FINAL 说 明 在 第 20 章 解释 。 

2) <representation > 是 另 一 个 类 型 的 名 字 (这 个 类 型 不 是 用 户 定 义 的 或 者 生成 的 ) 。 注 意 ， 
根据 这 些 规则 ， 就 不 能 定义 5.3 节 中 的 POINT 类 型 为 SQL DISTINCT 类 型 。 

3) 进一步 注意 ，< representation > 不 是 指 可 能 表示 ， 而 是 实际 的 这 个 类 型 的 物理 表示 。 实 
际 上 ，SQL 根本 不 支持 possrep 概念 。 这 就 使 得 它 不 可 能 定义 DISTINCT 类 型 一 一 或 者 结构 类 
型 一 一 的 两 个 或 多 个 不 同 的 possrep。 

4) 这 里 也 存在 着 类 似 的 Tutorial D 约束 说 明 。 例 如 ， 在 WEIGHT 类 型 的 例子 中 ， 没 有 指明 
对 于 每 一 个 WEIGHT 值 ， 相 应 的 DECIMAL(5 ,1 ) 必须 大 于 0 或 小 于 5000。 

5) DISTINCT 类 型 的 比较 操作 符 适用 于 底层 的 物理 表示 。 注 意 ; 除了 赋值 ( 见 第 8 点 )， 其 
他 的 适应 于 物理 表示 的 操作 符 不 适用 于 DISTINCT 类 型 。 比 如 ， 即 使 WT 是 WEIGHT 类 型 ， 下 
面 的 表示 也 无 效 : 


WT + 14.7 WT * 2 WT + WT 











日 ”我 们 假定 PAD SPACE 使 用 这 个 比较 [4: 20]。 
四 有 时 候 SQL 也 支持 域 ， 但 是 SQL 域 和 关系 中 的 域 没有 任何 关系 ，SQL 域 的 详细 说 明 参 看 [4. 20 ] 。 
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6) 支持 选择 子 和 THE_ 操 作 符 。 比 如 ， 如 果 NW 是 DECIMAL(5 ,1) 类 型 的 变量 ， 那 么 表达 
式 WEIGHT( :NW) 返 回 相 应 的 WEIGHT 值 ; 如 果 WT 是 一 列 WEIGHT 类 型 ， 那 么 表达 式 DECI- 
MAL( WT) 返 回 相 应 的 DECIMAL(5,1) 值 .2 下 面 是 有 效 的 SQL 语句 : 


DELETE 
FROM 了 
WHERE WEIGHT = WEIGHT ( 14.7 ) ; 


EXEC SQL DELETE 
FROM 了 
WHERE WEIGHT = WEIGHT ( :NW ) :; 


EXEC SQL DECLRRE 2 CURSOR FOR 
SELECT DECIMAL ( WEIGHT ) AS DWT 
FROM 了 
WHERE WEIGHT > WEIGHT ( :NW ) }; 


7) 强 类 型 应 用 于 DISTINCT 类 型 ， 除 了 一 个 例外 ( 见 第 8 点 )。 注 意 ，DISTINCT 类 型 和 底 
层 表 示 类 型 的 值 的 比较 是 不 合法 的 。 下 面 给 出 的 是 无 效 的 SQL 语句 ， 即 使 NW 是 DECIMAL(5， 
1) 类 型 : 


DELETE 
FROM Pp 
WHERE WEIGHT = 14.7 ; /* warning -- invaliq !!! */ 


EXEC SQL DELETE 
FROM P 
WHERE WEIGHT = :NW ; /* warning -- invalia 111 */ 
EXEC SQL DECLARE 2 CURSOR FOR 
SELECT DECIMAL ( WEIGHT ) AS DWT 
FROM Pp “ 
WHERE WEIGHT > :NW ; /* warning -- invalid !!! */ 
8) 第 7 点 中 提 到 的 例外 和 赋值 操作 符 有 关 。 比 如 ， 如 果 重 新 将 一 些 WEIGHT 值 指定 给 
DECIMAL(5 ,1) 变 量 ,需要 一 些 类 型 转换 。 现 在 ， 可 以 明确 实现 这 个 转换 ， 如 下 : 
SELECT DECIMAL ( WEIGHT ) AS DWT 
INTO :NW 
FROM Pp 
WHERE P# = P# ('Pl1')} ; 


然而 ,下面 这 个 也 是 合法 的 《并 且 会 发 生 相应 的 转换 ) : 


SELECT WEIGHT 

INTO :Nw 

FROM P 

WHERE P# = P# ('P1') }; 

类 似 的 结论 也 适用 于 INSERT 和 UPDATE 操作 。 

9) 显 式 的 CAST 操作 符 可 以 用 来 定义 在 DISTINCT 类 型 之 间 的 转化 ， 或 向 DICTINCT 类 型 
的 转化 ， 或 者 从 DISTINCT 类 型 的 转化 。 这 里 不 介绍 细节 。 

10) 可 以 根据 需要 定义 一 些 附 加 的 操作 符 (之 后 可 删除 ) 。 注 意 ，SQL 用 于 操作 符 的 术语 是 
例 程 ， 例 程 分 为 三 种 : 函数、 过程 和 方法 。( 函数 和 过 程 对 应 只 读 和 更 新 操作 ; 方法 像 过 程 ， 但 
是 以 一 种 不 同 的 动态 方式 调用 ,2 ) 我 们 可 以 定义 一 个 函数 一 一 多 态 函 数 一 一 称 为 ADDWT 
(“增加 重量 ”) ， 人 允许 两 个 值 相 加 ， 不 在 乎 它们 是 WEIGHT 值 还 是 DECIMAL(5 ,1) 值 ， 或 者 是 两 
者 的 混合 。 所 有 下 面 的 表示 都 是 合法 的 : 








”实际 上 DECIMAL( WT) 在 SQL: 1999 中 无 效 ， 但 是 期 望 在 SQL: 2003 中 有 效 。 它 不 能 用 作伪 变量 ， 不 像 Tuto- 
rial D 中 的 THE_ 操 作 符 。 

合 ” 不 像 番 数 和 过 程 ， 方 法 包含 一 些 运行 时 绑 定 〈 见 第 20 章 ) 。 注 意 : 方法 这 个 术语 来 自 于 面向 对 象 领域 ， 它 的 意 
思 需 要 根据 上 下 文 来 做 调整 ( 见 第 25 章 ) 。 
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ADDWT ( WT, 14.7 ) 
ADDWT ( 14.7, WT ) 
ADDWT ( WT, WT ) 

ADDWT ( 14.7, 3.0 ) 


更 多 关于 SQL 例 程 的 内 容 参 见 [4.20] 和 [4.28]， 进 一 步 的 细节 已 超出 了 本 书 的 
范围 。 
11) 下 面 的 语句 用 于 删除 用 户 定义 类 型 : 


DROP TYPE <type name> <behavior> :} 


< behavior > 或 者 是 RESTRICT 或 者 是 CASCADE。RESTRICT 的 意思 是 如 果 类 型 在 任何 地 
方 还 有 使 用 的 话 ，DROP 会 失败 ; CASCADE 的 意思 是 DROP 总 是 会 成 功 ， 对 于 任何 正在 使 用 这 
种 类 型 的 函数 引发 隐 式 的 DROP…CASCADE( !) 

2. 结构 类 型 

现在 介绍 结构 类 型 。 这 里 有 两 个 例子 : 


CREATE TYPE POINT AS ( X FLOAT, Y¥ .FLOAT ) NOT FINAL ; 
CREATE TYPE LINESEG AS ( BEGIN POINT, END POINT ) NOT FINAL ; 


(实际 上 ，BEGIN 和 END 是 SQL 保留 字 ， 所 以 第 二 个 例子 不 会 成 功 。) 创建 结构 类 型 的 最 
简单 语法 (忽略 各 种 可 选 说 明 ) 如 下 : 


CREATE TYPE <type name> AS <representation> NOT FINAL ; 


这 里 有 几 点 要 指出 : 

1) NOT FINAL 说 明 在 第 10 章 介绍 。 注 意 : SQL: 2003 有 望 允 许 FINAL 可 选 。 

2) < representation > 是 用 圆 括号 包装 的 < atribuie definition commalist > ， 这 里 < attribute > 
包含 <attribute name > 和 < type name > 。 注 意 ， 这 里 的 “attribute” 不 是 关系 里 面 的 属性 ， 央 为 
结构 类 型 不 是 关系 类 型 ( 见 第 6 章 )。 此 外 ，< representation > 是 实际 的 物理 表示 ， 不 是 某 种 可 
能 表示 。 注 意 : 类 型 设计 者 会 通过 操作 符 的 设计 和 选择 来 有 效 地 隐藏 这 个 事实 。 比 如 ， 给 定 类 型 
POINT 的 定义 ， 系 统 自动 提供 操作 符 来 表示 笛 卡 尔 表 示 ( 匈 第 3 点 和 第 6 点 ) ， 但 是 类 型 设计 者 
提供 操作 符 来 表示 相反 的 表示 。 

3) 每 一 个 属性 定义 会 引起 两 个 相关 的 操作 符 自动 定义 (实际 上 是 “方法 ”)， 一 个 是 观察 
者 ,一 个 是 增 变 者 ， 它 们 提供 的 功能 类 似 于 Tutorial D 中 的 THE_ 操 作 符 。 比 如， 如 果 LS, P 
和 之 是 LINESEG， POINT 和 FLOAT， 相 应 地 ， 下 面 的 赋值 语句 有 效 : 


SET ZI = P.X ; /* "observes" X attribute of P */ 
SET P.X = 2;，} /* "mutates" X attribute of P */ 
SET X = LS5, BEGIN. X ; /* "Observes" X attribute of */ 
/* BEGIN attribute of LS */ 
SET LS.BEGIN.X = ZZ; /* "mutates” XxX attribute of */ 
/* BEGIN attribute of LS */ 


4) 没有 和 Tutorial D 约束 说 明 类 似 的 问题 。 
5) 比较 操作 符 的 定义 通过 单独 的 CREATE ORDERING 语句 指定 。 这 里 有 两 个 例子 : 


CREATE ORDERING FOR POINT EQUALS ONLY BY STATE ; 
CREATE ORDERING FOR LINESEG EQUALS ONLY BY STATE ; 


EQUALS ONLY 指 的 是 = 或 者 关 (或 者 <> ， 意 思 是 不 等 于 )， 它 是 结构 类 型 的 值 的 有 效 比 
较 操作 符 。BY STATE 的 意思 是 这 个 类 型 的 两 个 值 会 相等 。 在 这 种 情况 下 ， 对 于 所 有 的 i, 第 i 





他 ”从 正确 性 角度 看 ，SQL 的 增 变 不 是 传统 术语 上 的 增 变 (它们 不 是 更 新 操作 符 ) ， 但 是 它们 能 够 实现 传统 的 增 变 
功能 。 比 如 , “SET P. X = Z”( 它 其 实 并 没有 准确 包含 增 变 调用 ) 是 “SET P = PX (Z)” 的 缩写 。 
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个 属性 是 相等 的 。 其 他 的 CREATE ORDERING 说 明 超出 了 本 书 的 范围 ， 比 如 ，“ > ”的 语义 也 
定义 为 结构 类 型 。 注 意 : 如 果 给 定 的 结构 类 型 没有 相关 的 “ordering”， 那 么 这 个 类 型 值 上 也 没有 
比较 ， 其 至 是 等 值 比较 。 

6) 不 自动 提供 选择 子 ， 但 是 它们 的 作用 同样 实现 。 首 先 ，SQL 自动 提供 构造 器 清 数 ， 但 是 
这 个 咕 数 的 每 次 调用 返回 同样 的 值 一 一 这 个 类 型 的 值 的 属性 都 有 相应 合适 的 默认 值 。 比如 ， 这 
个 构造 器 函数 调用 

POINT () 

返回 默认 值 为 X 和 了 的 点 。 现 在 ， 立 即 调用 X 和 了 的 增 变 操作 符 ( 见 第 3 点 ) 来 得 到 希望 


从 这 个 构造 器 函数 调用 能 够 得 到 的 点 。 此 外 ， 将 初始 的 “结构 ”和 随后 的 “ 增 变 ”捆绑 在 一 起 ， 
形成 一 个 单一 的 表达 式 ， 如 下 : 


POINT () .X(5.0).Y(2.5) 

这 里 有 一 个 更 复杂 的 例子 : 

LINESEG () . BEGIN ( POINT () .X(5.0).Y(2.5 ) ) 
. END ( POINT () .X(7.3).Y(0.8) ) 


注意 : 构造 器 函数 调用 加 上 NEW 噪音 词 不 会 改变 语义 ， 比 如 : 
NEW LINESEG () . BEGIN ( NEW POINT () . .0 
。 .3 


X ( 5 ( 
END ( NEW POINT {) . X (7 { 


) .YY 
) .Y 
7) 强 类 型 适用 于 结构 类 型 ， 除 了 在 第 6 章 6.6 节 介 绍 的 情况 外 〈 见 “结构 类 型 ”一 节 ) 。 

8) 前 面 提 到 的 额外 的 操作 符 也 能 按 要 求 定义 〈 以 及 删除 ) 。 
9) 结构 类 型 和 排序 可 以 删除 。 这 样 的 类 型 也 能 够 改变 ， 这 可 通过 ALTER TYPE 语句 实现 ， 
比如 ， 新 的 属性 增加 或 者 旧 的 属性 减少 (也 就 是 说 ， 表 示 会 发 生 改 变 ) 。 
在 下 一 章 将 进一步 关注 SQL 结构 类 型 ( 见 6.6 节 ) ， 还 有 第 20 章 和 第 26 章 。 
3. 类 型 生成 子 
SQL 支持 三 种 类 型 生成 子 (SQL 术语 为 类 型 构造 器 ) : REF、ROW 和 ARRAY. 本 节 只 讨 
论 ROW 和 ARRAY，REF 在 第 26 章 解 释 。 这 里 是 ROW 的 用 法 的 例子 : 
CREATE TABLE CUST 
( CUST# CHAR(3), 
ADDR ROW ( STREET CHAR(50), 
CITY CHAR(25), 
STATE CHAR(2), 


ZIP CHAR(5) ) 
PRIMARY KEY ( CUST# -) ) }; 


STREET，CITY，STATE 和 ZIP 是 生成 的 行 类 型 的 字段 。 通 常 ， 这 样 的 字段 可 以 是 任何 的 
类 型 ， 包括 其 他 的 行 类 型 。 字 段 层 次 的 引用 使 用 点 限制 ， 比 如 下 面 的 例子 (语法 是 < exp >. 
<field name > ， 这 里 的 < exp > 必须 是 行 值 的 ): 


SELECT CX.CUST# 
FROM CUST AS CX 
WHERE CX.ADDR.STATE = 'CA'’ }; 


注意 : CX 是 一 个 相关 性 名 称 。 相 关 性 名 称 在 第 8 章 (8.6 节 ) 具体 讨论 。 这 里 简单 提 到 





G@G 给 定 属 性 的 默认 值 由 相应 的 属性 部 分 指定 。 如 果 没 有 显 式 指定 这 些 值 ， 默 认 值 就 为 空 。 注 意 ， 由 于 超出 本 书 的 
范围 ， 如 果 这 个 属性 的 类 型 是 行 类 型 或 者 是 用 户 定义 类 型 (如 POINT) ， 那 么 默认 值 必须 为 空 。 如 果 它 是 -个 
数组 类 型 ， 那 么 它 可 以 是 空 也 可 以 为 空 值 一 一 指定 为 ARRAY[ ] 。 比 如 ， 如 果 BEGIN 和 END 帮 是 空 ， 构 造 器 质 
数 调用 LINESEG( ) 返 回 线段 。 

@ SQL: 2003 有 可 能 添加 MULTISET。 





80 名 二 部 分 关系 梦 型 


SQL 要 求 准确 的 相关 性 名 称 用 于 字段 引用 ， 以 达到 避免 某 种 语法 混乱 发 生 的 目的 。 

现在 这 里 有 一 个 INSERT 的 例子 : 

INSERT INTO CUST ( CUST#, ADDR ) 

VALUES ( ‘666', ROW ( ‘1600 Pennsyivania Ave.’', 

'Washington', ‘DC'’, '20500 ) ); 

注意 这 个 例子 中 的 行 值 (row literal) (实际 上 ， 在 SQL 里 没有 行 值 ， 这 个 例子 中 的 表示 是 
一 个 行 值 构 造 器 (row value constructor) ) 。 

下 一 个 例子 : 


UPDATE CUST AS CX 
SET CX.ADDR.STATE = 'TX' 
WHERE CUST# = '999' ，; 


注意 : 实际 上 标准 目前 不 允许 字段 层次 上 的 更 新 ， 但 是 以 后 可 能 会 变化 。 
ARRAY 类 型 生成 子 是 类 似 的 ， 这 里 是 一 个 例子 : 


CREATE TABLE ITEM SALES 
( ITEM# CHAR(S), 

SALES INTEGER ARRAY [12], 

PRIMARY KEY ( ITEM# ) ) ; 


通过 ARRAY 生成 的 类 型 总 是 一 维 的 ， 这 个 特定 的 元 素 类 型 (例子 中 是 INTEGER) 能 够 是 
除了 数组 类 型 以 外 的 任何 类 型 。 让 a 等 于 某 种 数组 类 型 的 值 ， 那 么 a 能 够 包含 任何 数目 的 元 
素 (n>0) ， 趋 于 但 是 不 超过 指定 的 上 界 (例子 中 是 12) 。 如 果 a 准确 包含 4 个 元 素 (n >0)， 
那么 这 些 元 素 引 用 为 e[ 1] ,a[2] ,…,a[n]。 表 达 式 CARDINALITY(a) 返 回 4 值 。 

这 里 给 出 使 用 TTEM_SALES 表 的 几 个 例子 。 注 意 第 二 个 例子 中 的 数组 值 (array literal) ( 相 
当 于 一 个 数组 值 构造 器 ) : 


SELECT ITEM# 
FROM ITEM SALES 
WHERE SALES [3] > 10; 


INSERT INTO ITEM SALES ( ITEM#, SALES ) 
VALUES ( 'X4320， 
ARRAY { 0，0，0，0，0，0，0; 0, 0, 0, 0,0]); 


UPDATE ITEM SALES 

SET SALES {3] = 10 

WHERE ITEM# = '%0564' 

本 节 结 尾 我 们 强调 ， 赋 值 和 等 值 比较 操作 符 应 用 于 ROW 和 ARRAY 类 型 一 一 除非 ROW 或 
者 ARRAY 类 型 包含 一 个 未 定义 等 值 比较 的 元 素 类 型 ， 这 样 它 也 无 法 定义 ROW 或 ARRAY 类 型 。 


5.8 小 结 


在 本 章 中 ， 我们 对 数据 类 型 (也 称 为 域 或 者 类 型 ) 的 严格 概念 进行 了 全 面 的 介绍 。 类 型 是 
一 组 值 : 也 就 是 说 ， 这 组 值 满 足 一 定 的 类 型 约束 (Tutorial D 中 的 POSSREP 子 句 来 指定 ， 包 括 
可 选 的 约束 说 明 ) 。 每 一 个 类 型 有 相关 的 一 组 操作 符 (包含 只 读 和 更 新 操作 符 ) 来 处 理 值 和 变 
量 。 类 型 可 以 是 简单 的 也 可 以 是 复杂 的 ， 类 型 的 值 可 以 为 数字 、 串 、 日 期 、 音 频数 据 、 图 、 视 频 
数据 或 者 地 理 位 置 ， 等 等 。 类 型 约束 操作 ， 就 是 一 个 给 定 操作 上 的 操作 对 象 必须 符合 操作 上 的 正 
确 类 型 ( 强 类 型 ) 。 强 类 型 是 一 个 非常 好 的 设想 ， 并 且 是 在 编译 的 时 候 〈 而 不 是 在 运行 时 ) 就 能 





”这 个 限制 可 能 在 SQL: 2003 中 会 被 去 除 ， 在 任何 情况 下 ， 元 素 类 型 可 以 是 一 个 行 类 型 ， 而 且 这 个 行 类 型 包括 一 
些 数组 类 型 的 字段 ， 下 面 就 是 一 个 合法 的 变量 定义 : 
VX ROW (FX INTEGER ARRAY [12]) ARRAY [12] 


例如 ，VX[3]. FX[5] 指 VX 数组 变量 值 的 第 3 个 元 素 ， 行 的 惟一 的 第 5 个 元 素 。 
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捕 换 到 某 些 逻辑 错误 。 注 意 对 关系 操作 (尤其 是 连接 、 并 等 ) 来 说 ， 强 类 型 有 重要 的 含义 ， 在 
第 7 章 中 将 会 讨论 到 。 

我 们 也 讨论 值 和 变量 之 间 的 重要 的 逻辑 区 别 ， 指 出 值 是 不 能 更 新 的 。 值 和 变量 都 可 以 类 型 
化 ， 可 以 是 关系 的 属性 、 只 读 操 作 符 、 参 数 ， 甚 或 是 任意 复杂 的 表达 式 。 

类 型 可 以 是 系统 定义 的 也 可 以 是 用 户 定义 的 ， 它们 可 以 是 标量 的 或 者 非 标量 的 ， 标 量 类 型 没 
有 用 户 可 见 的 组 件 。( 关 系 模型 中 最 重要 的 非 标 量 类 型 是 关系 类 型 ， 这 个 在 下 一 章 讨论 )。 我 们 
严格 区 分 类 型 和 它 的 物理 表示 (类 型 是 模型 问题 ， 物 理 表示 是 实现 问题 )。 然 而 ， 我 们 规定 每 个 
标量 类 型 至 少 有 一 个 可 能 表示 。 每 个 可 能 表示 产生 一 个 选择 子 操作 符 和 对 应 可 能 表示 的 每 个 分 量 
的 THE 操作 符 (包括 THE_ 伪 变量 ) 的 自动 定义 。 我 们 支持 显 式 的 类 型 转换 ， 但 不 支持 隐 含 的 
强制 转换 。 同 时 支持 对 标量 类 型 定义 任意 数目 的 操作 符 ， 并 在 每 个 类 型 上 定义 等 值 比较 操作 符 和 
(多 ) 赋值 操作 符 。 

我 们 还 讨论 了 类 型 生成 子 ， 它 是 返回 类 型 的 操作 符 (ARRAY 就 是 例子 ) 。 产 生 的 类 型 的 约 
束 和 操作 符 都 来 自 于 一 般 的 与 合适 类 型 生成 子 相关 的 约束 和 操作 符 。 

最 后 讨论 了 SQL 类 型 特性 。SQL 提供 各 种 内 置 类 型 一 一 BOOLEAN 、INTEGER 、DATE、 
日 支持 这 些 类 型 相关 的 强 类 型 的 有 限 形式 。 
SQL 也 允许 用 户 定义 自己 的 类 型 ， 分 为 DISTINCT 类 型 和 结构 类 型 (structured type ) ; 也 支持 某 
种 类 型 生成 子 (ARRAY 和 ROW， 还 有 REF) 。 我 们 根据 本 章 前 面 的 内 容 对 这 些 SQL 功能 进行 
分 析 。 


习题 


5.1 “列举 赋值 ( : = ) 和 等 值 比较 ( = ) 操作 符 的 类 型 规则 。 
5.2 区 分 : 
值 和 变量 类 型 和 表示 物理 表示 和 可 能 表示 
标量 和 非 标量 ”只 读 操作 符 和 更 新 操作 符 
5.3 “用 自己 的 语言 解释 下 面 的 概念 : 








强制 伪 变 量 

生成 类 型 选择 子 

值 强 类 型 

顺序 类 型 THE_ 操 作 符 
多 态 操作 符 类 型 生成 子 


5.4 ”为 什么 逻辑 上 不 需要 伪 变 量 ? 

5.5 ”给 定 一 个 有 理 数 ， 定 义 一 个 操作 符 返 回 这 个 数 的 立方 。 

5.6 ”定义 一 个 只 读 操 作 符 ， 给 定 一 个 币 卡 尔 坐 标 为 和 ?的 点 ， 返 回 币 卡 尔 坐标 为 所 x) 和 8(7) 的 点 ， 其 
中 /和 8 是 事先 定义 好 的 操作 符 。 

5.7 ”重复 习题 5.6 但 是 定义 一 个 更 新 操作 符 。 

5.8 ”给 定 标量 类 型 CIRCLE 的 类 型 定义 ， 它 的 选择 子 操作 符 和 THE 操作 符 如 下 : 
a) 定义 一 组 只 读 操 作 符 来 计算 直径 、 圆 周 和 给 定 圆 的 面积 。 
b) 定义 一 个 更 新 操作 符 使 得 给 定 圆 的 半径 扩大 到 两 倍 (也 就 是 更 新 给 定 圆 的 变量 ， 半 径 是 以 前 的 

两 倍 ) 。 

5.9 ”给 出 一 些 类 型 的 例子 ， 用 于 定义 两 个 或 多 个 不 同 的 可 能 表示 。 你 能 想到 一 个 例子 ， 其 中 同一 个 类 型 
的 不 同 的 可 能 表示 有 不 同 数目 的 组 件 吗 ? 

5. 10 ”给 定 一 些 类 型 的 例子 ， 根 据 第 3 章 图 3-6 中 给 定 的 部 门 和 雇员 数据 库 ， 怎 么 使 得 它 的 目录 扩展 考虑 
用 户 定 义 类 型 和 操作 符 ? 

5.11 目录 关系 变量 本 身 定义 在 什么 类 型 上 ? 

5.12 给 定 一 组 合适 的 标量 类 型 定义 ， 用 于 供应 商 - 截 件 - 工程 数据 库 〈 见 图 4-5)。 不 要 试图 写 关 系 变量 
定义 。 

5.13 5.3 节 指 出 以 下 这 种 说 法 严格 来 讲 不 正确 ， 比 如 说 某 一 出 货 量 是 100 (数量 是 QTY 类 型 的 值 ， 不 是 
INTEGER 类 型 的 值 ) 。 结 果 ， 图 4-5 相当 庞大 ， 如 果 它 假装 认为 数量 作为 整数 是 正确 的 。 对 于 习题 
5. 12， 给 出 正确 的 方式 来 表示 图 4-5 中 的 各 种 标量 值 。 
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5$.14 计算 练习 5. 12， 下 面 哪个 标量 表达 式 是 合法 的 ? 对 于 合法 的 这 个 ， 表 示 结 果 的 类 型 ; 对 于 其 他 ， 写 
出 能 够 得 到 期 望 效 果 的 合法 表达 式 。 
a) J.CITY = P.CITY 
b) JNAME || PNAME 
cj) QTY * 100 
dd) QTY + 100 
e) STATUS + 5 
D J.CITY < S.CITY 
g) COLOR = P.CITY 
h) J.cITY = P.CITY | | 'burg’ 


5.15 “有 时 候 类 型 也 是 变量 ， 像 关系 变量 。 比 如 ， 合 法 的 雇员 号 可 以 从 三 位 数字 增长 到 四 位 ， 以 适合 商业 
扩展 ， 这 样 需 要 更 新 “所 有 可 能 的 雇员 号 ”。 讨 论 这 一 情况 。 

5.16 给 出 5.3 节 和 5.4 节 的 所 有 类 似 SQL 的 类 型 定义 。 

5.17 给 出 练习 5. 12 的 SQL 解答 。 

5.18 在 SQL 中 : 
a) 什么 是 DISTINCT 类 型 ? 什么 是 一 般 的 DISTINCT 类 型 值 ? 是 否 存在 一 个 indistinct 类 型 ? 
b) 什么 是 结构 类 型 ? 什么 是 一 般 的 结构 类 型 的 值 ? 是 否 存在 一 个 非 结构 类 型 ? 

5. 19 ”解释 SQL 中 的 术语 : 观察 者 (observer) 、 增 变 函 数 (mutator) 以 及 构造 器 函数 〈constructor func- 
tion ) 。 

5.20 “=” 操 作 符 没有 定义 给 定 类 型 ， 计 算 的 结果 是 什么 ? 

5.21 类 型 是 一 组 值 ， 那 么 当 组 为 空 值 的 时 候 ， 这 个 类 型 为 空 值 。 构 想 一 个 这 种 类 型 的 应 用 。 

5.22 “SQL 没有 正式 的 行 值 (row literal) 或 者 数组 值 (array literal) 。” 解释 这 个 结论 。 

5.23 ”考虑 5.7 节 中 的 “结构 类 型 ”定义 的 SQL 类 型 POINT。 这 个 类 型 有 包含 币 卡 尔 坐 标 改 和 Y 的 表示 。 
如 果 把 POINT 类 型 改 成 极 坐标 R 和 8 的 表示 ， 会 发 生 什么 ? 

5.24 SQL COUNT 和 CARDINALITY 操作 符 之 间 的 区 别 是 什么 ? 注意 ，COUNT 定义 在 第 8 章 8.6 节 。 


参考 文献 


[5.1] 于 Craig Cleaveland: An Introduction to Data Types. Reading,Mass. :Addison- Wesley( 1986 ) . 





第 6 章 关 系 


6.1 引言 

在 前 一 章 里 ,我 们 已 经 概要 地 讨论 了 类 型 、 值 和 变量 的 概念 ; 现在 将 注意 力 转 移 到 关系 类 
型 、 值 和 变量 上 来 。 既 然 关 系 是 从 元 组 扩展 而 来 的 ， 因 此 我 们 将 仔细 分 析 元 组 的 类 型 、 值 和 变 
量 。 不 过 要 注意 的 是 ， 元 组 本 身 并 不 是 最 重要 的 ， 至 少 从 关系 的 角度 来 看 是 这 样 。 元 组 的 重要 性 
主要 在 于 它们 构成 了 通 向 关系 的 一 个 必要 的 铺垫 。 


6.2 元 组 


首先 我 们 对 元 组 给 出 一 个 准确 的 定义 。 给 定 一 系列 类 型 (i = 1,2,…,n)， 这 些 类 型 不 必 是 独 
一 无 二 的 ， 在 这 些 类 型 之 上 的 一 个 元 组 值 ( 简 称 元 组 ) ! 是 一 个 有 序 的 三 元 组 <A;, 7,, v, > ， 其 中 
4, 是 属性 名 ，T; 是 类 型 名 ，v 是 类 型 Ti 对 应 的 值 ， 并 且 : 

m 1 的 值 是 元 组 1 的 度 或 者 数量 。 

em 有 序 三 元 组 <4,， 7 , v; > 是 元 组 ! 的 一 个 组 件 。 

s 有 序 对 < A,, TT > 是 元 组 1 的 一 个 属性 ， 由 属性 名 4, 唯一 确定 ( 仅 当 i=j 时 4, 与 4) 相 
同 )。v, 的 值 是 元 组 :中 属性 4; 的 属性 值 ,? 而 7; 则 是 相应 的 属性 类 型 。 

完整 的 属性 集 构成 了 元 组 1 的 表 头 (heading ) 。 

se 元 组 ! 的 元 组 类 型 取决 于 上 的 表 头 ， 而 表 头 和 元 组 类 型 包含 有 相同 的 属性 〈 相 同 的 属性 名 

和 类 型 ) 和 相同 的 度 。 元 组 类 型 名 的 精确 定义 如 下 : 


TUPLE { AI Tl1, A2 T2, ..., An Tn } 
下 面 是 一 个 示例 元 组 : 


MAJOR_P# MINOR_Pp# on 


这 里 的 属性 名 分 别 是 MAJOR_P#，MINOR_P# 和 QTY; 相应 的 类 型 名 是 P#，P# 和 QTY; 相应 的 
值 分 别 是 P# (“P2’)，P# |“P4’ | 和 QTY(7) (为 简单 起 见 ， 图 中 的 这 些 值 分 别 被 简写 为 P2， 
P4 和 7) 。 这 个 元 组 的 度 为 3， 它 的 表 头 是 ， 


MAJOR P# : P# | MINOR P# : P# | QTY : QTY 


它 的 类 型 是 : 


TUPLE { MAJOR P# P#, MINOR P# P#, OTY QTY } 


注意 ; 非 正 式 场合 中 常常 省 略 元 组 表 头 中 的 类 型 名 ， 而 只 写 出 属性 名 。 所 以 ,我们 一 般 这 样 
描述 原来 的 元 组 : 


MAJOR P# | MINOR P# | QTY 
P2 P4 7 





在 Tutorial D 中 ， 刚 才 讨 论 过 的 元 组 通常 被 表示 为 如 下 形式 : 





”当然 ,属性 名 和 属性 本 身 在 逻辑 上 是 不 同 的 。 实 际 上 这 是 经 不 起 推荐 的 ， 我 们 经 常 使 用 表达 式 如 “属性 4;”， 
表示 属性 名 是 4，( 我 们 在 前 一 章 中 确实 是 这 样 做 的 )。 
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TUPLE { MAJOR P# P#('P2'), MINOR P# P#('P4'), QTY QTY(7) } 


(元 组 选择 子 调用 的 例子 见 下 一 小 节 。) 仔细 观察 如 上 表达 式 可 发 现 ， 元 组 属性 的 类 型 由 有 具体 的 属性 
值 明 确 地 确定 〈 例 如 ， 属 性 MINOR_P# 的 类 型 是 P#， 这 是 由 于 其 相应 的 属性 值 的 类 型 是 P#) 。 
1. 元 组 的 性 质 
元 组 满足 多 种 重要 的 性 质 ， 所 有 这 些 性 质 都 直接 引发 本 节 之 后 的 许多 定义 。 具 体 而 言 : 
m 在 每 一 个 元 组 中 ， 对 于 其 中 的 每 一 个 属性 (适当 的 类 型 ) 只 含有 一 个 值 。 
一 个 元 组 中 的 组 件 没有 从 左 到 右 的 顺序 。 因 为 元 组 的 定义 已 经 规定 了 它 包括 一 个 组 件 的 集 
合 ， 而 从 数学 角度 来 说 集合 中 的 元 素 是 没有 顺序 的 。 
e -个 元 组 的 每 一 个 子 集 都 是 一 个 元 组 (同样 ， 表 头 的 每 一 个 子 集 也 是 一 个 表 头 )。 而 且 对 
于 空子 集 来 说 ， 这 两 个 性 质 也 是 正确 的 ! 参看 下 一 段 。 
更 术语 化 的 描述 : 度 为 1 的 元 组 被 称 为 是 一 元 的 ， 度 为 2 的 元 组 被 称 为 是 二 元 的 ， 度 为 3 的 
元 组 称 为 三 元 的 〈 依 此 类 推 ); 更 一 般 的 来 说 ， 度 为 n 的 元 组 被 称 为 n 元 的 。 度 为 0 的 元 组 
( 比如， 一 个 不 包含 任何 组 件 的 元 组 ) 被 称 为 零 元 (nullary) 的 。 这 里 我 们 概要 地 讨论 最 后 这 种 
可 能 性 。 比 如 ， 在 Tutorial D 中 有 一 个 零 元 的 元 组 : 


TUPLE { } 


有 时 候 为 了 强调 一 个 度 为 零 的 元 组 中 不 包含 任何 组 件 ， 我 们 可 以 更 明确 地 将 之 描述 为 “0 元 组 ”。 


组 是 至 关 重要 的 。6. 4 节 会 更 多 地 描述 这 个 问题 。 
2. 元 组 类 型 生成 子 
Tutorial D 中 提供 了 一 个 元 组 类 型 生成 子 ， 这 个 生成 子 可 以 用 于 定义 关系 变量 的 属性 以 及 一 
些 元 组 变量 。” 下面 是 后 者 的 一 个 例子 ; 
VAR ADDR TUPLE { STREET CHAR, 
CITY CHAR, 


STATE CHAR, 
2IP CHAR } ; 


调用 元 组 类 型 生成 子 的 一 般 形 式 为 : 
TUPLE { <attribute commalist> } 


(每 一 个 <attribute > 包含 一 个 <attribute name > 和 一 个 < type name > ， 其 中 后 者 紧 随 在 前 者 之 
后 ) 。 对 元 组 类 型 生成 子 的 一 个 具体 调用 产生 出 元 组 类 型 例如 ， 上 面 所 示 变 量 ADDR 的 定义 
就 是 一 个 生成 的 类 型 。 

每 一 个 元 组 类 型 都 有 一 个 相关 联 的 元 组 选择 子 操作 符 。 这 里 是 一 个 对 刚才 定义 的 变量 ADDR 
的 元 组 类 型 调用 选择 子 操作 符 的 例子 : 


TUPLE { STREET '1600 Pennsylvania Ave。'， 
CITY ‘Washington’', STATE 'DC', 2IP '20500' } 

这 样 表达 的 元 组 可 以 给 元 组 变量 ADDR 赋值 ， 或 者 用 另 一 个 类 型 相同 的 元 组 测试 其 是 否 相 
等 。 尤 其 要 注意 ， 为 使 两 元 组 有 相同 的 类 型 ， 它 们 必须 有 相同 的 属性 。 也 要 注意 ， 所 给 元 组 的 类 
型 可 以 是 任何 类 型 (它们 可 以 是 某 个 关系 类 型 ， 也 可 以 是 其 他 的 元 组 类 型 ) 。 

3. 元 组 操作 符 

我 们 已 经 简单 地 提 到 了 元 组 的 选择 子 、 赋 值 和 相等 比较 操作 符 。 不 过 ， 更 详尽 地 阐述 元 组 的 
语义 很 重要 ， 因 为 后 面 的 章节 是 以 此 为 基础 的 。 尤 其 是 ， 下 面 的 部 分 是 在 此 基础 上 定义 的 : 








加 术语 “元 组 ”有 时 用 于 代替 “元 组 ”《 例 如， 我 们 说 4 元 组 、2 元 组 ， 等 等 ) ， 但 是 常常 省 掉 前 级“m” 。 
四 “元 组 变量 不 是 关系 模型 的 一 部 分 ， 在 关系 数据 库 中 是 不 允许 使 用 元 组 变量 的 。 但 是 ， 支 持 关 系 模型 的 系统 可 能 
在 应 用 中 支持 元 组 变量 〈 即 元 组 变量 是 应 用 的 局 部 变量 ) 。 
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所 有 的 关系 代数 操作 符 ( 见 第 7 章 ) 

a 候选 码 ( 见 第 9 章 ) 

= 外 码 ( 见 第 9 章 ) 

a 函数 和 其 他 依赖 〈 见 第 11 ~ 13 章 ) 
还 有 其 他 的 。 下 面 是 准确 的 定义 : 

= 元 组 相等 : 元 组 1 和 忆 相 等 ( 即 :1 =72 为 真 ) 当 且 仅 当 它们 有 相同 的 属性 A1,42,…,An 

并 且 ， 对 于 所 有 的 i(i=1,2,…,n)，, tl 中 Ahi 的 值 v1 和 台中 Ai 的 值 避 相等 。 

a 更 进一步 一 这 一 点 看 起 来 很 明显 ， 但 需要 说 明 一 下 一 一 元 组 dl 和 六 是 重复 的 ， 当 且 仅 

当 它们 是 相等 的 ( 即 事实 上 它们 是 相同 的 元 组 ) 。 

由 前 面 的 定义 立刻 可 以 得 到 所 有 0 元 组 相互 间 都 重复 的 结论 ! 因此 ， 我 们 可 以 用 术语 0 元 代 
替 “- 一 个 ”0 元 组 ,事实 上 我 们 通常 是 这 样 做 的 。 

也 要 注意 比较 操作 符 “ <” 和 “ >” 不 用 于 元 组 (元 组 类 型 不 是 普通 的 类 型 ) 。 

除了 前 面 所 述 ,文献 [3. 3] 提出 了 某 些 关系 操作 符 的 类 似 操作 (将 在 第 7 章 讨论 ) 一 一 元 
组 投影 、 元 组 连接 ， 等 等 。 这 些 操作 符 大 部 分 是 自 解释 的 ; 我 们 这 里 只 举 一 个 元 组 投影 的 例子 
(在 应 用 中 这 个 操作 符 可 能 最 有 用 ) 。 使 变量 ADDR 如 前 面 小 节 所 定义 ， 其 当前 值 如 下 : 


TUPLE { STREET '1600 Pennsylvania Ave 
CITY 'Washington', STATE 'DC'， ZIP 20500°' } 





则 元 组 投影 操作 : 


ADDR { CITY, ZIP } 


表示 元 组 : 


TUPLE { CITY 'Washington’', 2ZIP ‘20500' } 


我 们 也 需要 能 从 给 定 的 元 组 中 提取 出 属性 值 。 如 果 ADDR 如 前 所 述 ， 那 么 表达 式 


ZIP FROM ADDR 


表示 的 值 是 

'20500， 
元 组 类 型 推论 正如 本 节 开 始 所 定义 的 ， 称 为 模式 的 元 组 类 型 的 一 个 重要 优点 是 有 利于 确定 任意 
元 组 表达 式 的 结果 类 型 。 例 如 ， 再 看 一 下 这 个 元 组 投影 : 


ADDR { CITY, 2IP } 


正如 我 们 看 到 的 ， 这 个 表达 式 通过 从 ADDR 的 当前 值 中 “投影 掉 ” 属 性 STREET 和 STATE 得 到 
一 个 元 组 ， 准 确 表 达 为 


TUPLE { CITY CHAR, ZIP CHAR } 


类 似 的 注释 可 应 用 于 所 有 可 能 的 元 组 表达 式 。 
包 和 解 包 : 考虑 下 面 的 元 组 类 型 


TUPLE { NAME NAME, ADDR TUPLE { STREET CHAR, CITY CHAR, 
TATE CHAR, ZIP CHAR } } 


TUPLE { NAME NAME, STREET CHAR, CITY CHAR, 
STATE CHAR, 2IP CHAR } 


我 们 分 别 用 TT1 和 772 表示 这 些 元 组 类 型 。 特 别 注意 观察 类 型 TT1 ， 它 包括 一 个 本 身 是 某 个 
元 组 类 型 的 属性 (771 的 度 是 2， 不 是 5) 。 现 在 令 NADDR1 和 NADDR2 分 别 是 类 型 TT1 和 772 
的 元 组 变量 ， 那 么 : 

= 表达 式 
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NADDR2 WRAP { STREET, CITY, STATE, ZIP } AS ADDR 


取 NADDR2 的 当前 值 ， 包装 STREET，CITY，STATE 和 ZIP 分量 ， 得 到 单个 元 组 值 
ADDR。 表 达 式 的 结果 是 类 型 ?71 ， 所 以 下 面 的 赋值 是 正确 的 : 
NADDR1 := NADDR2 WRAP { STREET, CITY, STATE, ZIP } RS ADDR ; 
a 表达 式 
NADDR1 UNWRAP ADDR 


取 NADDR1 的 当前 值 ， 解 包 ADDR 分 量 ， 得 到 分 离 的 STREET, CITY，STATE 和 ZIP 分 
量 。 表 达 式 的 结果 是 类 型 772， 所 以 下 面 的 赋值 是 正确 的 : 


NADDR2 := NADDR1 UNWRAP ADDR ; 
元 组 类 型 和 可 能 表示 


你 可 能 注意 到 这 一 节 中 描述 的 元 组 类 型 生成 子 语法 与 第 5 章 中 声明 过 的 可 能 表示 的 语法 之 间 
存在 一 些 相似 性 一 一 它们 都 包含 一 列 由 逗号 分 割 的 项 ， 每 一 项 指定 了 某 一 事物 名 称 以 及 与 之 对 应 
的 类 型 名 称 ， 那 它们 到 底 是 两 个 概念 还 是 一 个 概念 呢 ? 事实 上 是 两 个 概念 (语法 的 相似 性 并 不 
重要 )。 例 如 ， 如 果 X 是 元 组 类 型 ， 那么 可 能 需要 做 这 一 类 型 的 投影 就 像 前 一 节 描述 的 那样 。 
但 如 果 X 是 某 个 标量 类 型 7 的 一 个 可 能 表示 ， 那 么 毫 无 疑问 需要 对 标量 类 型 了 的 一 个 值 进 行 投 
影 。 进 一 步 的 讨论 请 看 参考 文献 [3.3]。 


6.3 关系 类 型 


现在 我 们 回来 讨论 关系 。 对 以 前 小 节 中 的 元 组 ,我们 的 处 理 方法 相似 ; 不 过 ， 后 面 我 们 会 更 
多 地 关注 关系 ， 并 把 内 容 分 成 几 个 部 分 一 一 6. 3 节 讨论 关系 类 型 ，6. 4 节 讨 论 关系 值 ，6.5 节 讨 
论 关系 变量 。 

首先 给 出 术语 关系 的 准确 定义 。 关 系 值 ( 简 而 言 之 就 是 关系 ) r 由 表 头 和 主体 组 成 ， 其 中 ， 

uw 关系 + 的 表 头 是 一 个 元 组 的 表 头 ， 这 在 6. 2 节 已 经 定义 过 。 关 系 + 有 着 相同 的 属性 名 、 属 

性 类 型 以 及 相同 的 度 。 

a 关系 > 的 主体 是 元 组 的 集合 ， 它 们 有 相同 的 表 头 ; 集合 的 基数 (cardinality) 被 称 为 r 的 基 

数 (通常 ， 集 合 的 势 就 是 集合 元 素 的 个 数 ) 。 

r 的 关系 类 型 由 r 的 表 头 决定 ， 并 与 表 头 有 相同 的 属性 名 、 属 性 类 型 以 及 相同 的 度 。 准 确 地 
说 ， 关 系 类 型 名 为 : 


RELATION { AI TI，A2 T2, ..., An Tn } 


这 里 有 一 个 关系 的 例子 ( 它 和 第 4 章 图 4-6 所 示 的 关系 相似 但 不 相同 ) : 





: P# 





这 个 关系 的 类 型 是 : 


RELATION { MAJOR P# P#, NMINOR P# P#, OTY QTY } 


在 非 正式 的 上 下 文中 ， 从 关系 的 表 头 中 省 略 类 型 名 ， 只 显示 属性 名 的 情况 是 很 普遍 的 。 非 正 





人 ”根据 关系 常用 的 表 状 图 ， 表 头 对 应 于 列 名 的 行 ， 主 体 对 应 于 数据 行 的 集合 。 表 头 被 当 作 模式 ， 也 被 当 作 内 涵 ， 这 
时 ， 主 体 即 为 外 延 。 
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式 地 ， 可 以 这 样 表 示 前 面 的 关系 : 








在 Tutorial D 中 ,下 面 的 表达 式 可 以 表示 这 个 关系 : 


RELATION { 
TUPLE 


{ MAJOR P# P#('Pl'), MINOR P# P#('P2'), QTY QTY(5) } ， 
TUPLE { MAJOR P# p#, Pl1'), MINOR P# P#('P3'), QTY QTY(3) } ， 
TUPLE { MAJOR P# P#('P2'), MINOR P# P#('P3'), QTY QTY(2) } ， 
TUPLE { MAJOR P# P#('P2'), MINOR-P# P#('P4'}, QTY QTY(7) } ， 
TUPLE { MAJOR Pp# Dt P3'), MINOR P# P#('P5'), QTY QTY(4) } ， 
TUPLE { MAJOR P# P#('P4'), MINOR P# P#('P6'), QTY QTY(8) } } 


下 面 的 表达 式 是 一 个 关系 选择 子 调用 的 例子 。 通 常 的 格式 是 : 


RELATION {[ <heading> ] { <tuple exp commalist> } 


这 里 的 < heading > 是 可 选项 ， 它 是 用 括号 括 起 来 并 用 去 号 分 隔 的 < attribufe > 的 列表 ， 仅 当 < tu- 
ple exp commalist > 为 空 时 需要 这 个 选项 。 当 然 ， 所 有 的 < wple exp > 必须 是 相同 的 元 组 类 型 ， 而 
且 如 果 指定 了 < heading > ， 那 么 元 组 类 型 必须 是 由 < heading > 决定 的 。 

注意 ， 严 格 地 说 ， 关 系 不 包含 元 组 一 一 它 包含 主体 ， 依 次 地 ， 主 体 包含 元 组 。 不 过 ， 为 了 方 
便 讨论 ， 我 们 会 非 正式 地 说 关系 直接 包含 元 组 ， 在 整 本 书 中 我 们 也 沿用 这 个 简单 的 说 法 。 

类 似 于 元 组 ， 度 为 1 的 关系 我 们 称 其 为 一 元 的 ， 度 为 2 的 关系 我 们 称 其 为 两 元 的 ， 度 为 3 的 
关系 我 们 称 其 为 三 元 的 ， 更 一 般 地 ， 度 为 n 的 关系 我 们 称 其 为 n 元 的 。 度 为 0 的 关系 一 一 没有 属 
性 的 关系 一 -我 们 称 其 为 零 元 的 (我 们 将 在 下 一 节 详细 讨论 最 后 一 种 可 能 )。 同 时 ， 我 们 注 
意 到 : 

。 表 头 的 每 个 子 集 也 是 表 头 〈 与 元 组 相似 )。 

。 主体 的 每 个 子 集 也 是 主体 。 

在 这 两 种 情况 下 ， 讨 论 的 子 集 在 比较 特殊 时 可 能 是 空 集 。 

关系 类 型 生成 子 

Tutorial D 提供 了 关系 类 型 生成 子 ， 可 以 在 定义 某 个 关系 变量 的 时 候 调用 这 一 操作 。 下 面 是 
一 个 例子 : 


VAR PART | STRUCTURE 
RELATION { MAJOR | pe P#, MINOR P# P#, QTY QTY } ... ; 


(为 简单 起 见 ， 我 们 省 略 了 定义 中 一 些 不 相关 的 部 分 。) 一 般 说 来 ， 关 系 类 型 生成 子 和 元 组 类 型 
生成 子 在 形式 上 是 一 样 的 ， 除 了 将 出 现 TUPLE 的 地 方 换 为 RELATION 之 外 。 通 过 调用 关系 类 型 
生成 子 ， 能 产生 出 关系 类 型 一 一 例如 ， 在 关系 变量 PART_STRUCTRUE 的 定义 中 出 现 的 类 型 就 
是 一 个 生成 的 类 型 。 

每 一 个 关系 类 型 都 有 一 个 相关 的 关系 选择 子 操作 符 。 我 们 刚才 已 经 看 到 了 一 个 关系 类 型 的 选 
择 子 操作 符 调用 的 例子 。 由 选择 子 操作 符 调用 所 表示 的 关系 可 用 于 给 关系 变量 PART_STRUC- 
TRUE 赋值 ， 也 可 用 于 与 另 一 个 关系 类 型 进行 相等 性 比较 。 特 别 要 注意 的 是 ， 两 个 关系 如 果 属 于 
同一 类 型 ， 则 必须 上 且 只 须 含 有 相同 的 属性 。 同 时 要 注意 ， 对 于 一 个 给 定 的 关系 类 型 ， 它 的 属性 可 
以 是 任何 类 型 的 (它们 甚至 可 以 是 一 些 元 组 类 型 或 是 其 他 一 些 关 系 类 型 ) 。 


6.4 关系 的 值 
现在 我 们 开始 在 细节 上 更 多 地 关注 关系 ， 比 如 关系 的 值 。 首 先 要 注意 的 是 关系 要 满足 某 些 特 
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性 ， 这些 特性 都 是 由 前 面 章节 给 出 的 关系 的 定义 直接 决定 的 ， 而 且 都 很 重要 。 我 们 首先 以 问题 的 
形式 描述 这 些 特 性 ， 然 后 再 详细 讨论 它们 。 如 下 ， 在 任何 给 定 的 关系 中 : 

1) 每 个 元 组 中 对 应 于 每 个 属性 都 包含 一 个 确定 的 值 (属于 某 种 恰当 的 类 型 ) 。 

2) 属性 之 间 没 有 左右 顺序 差别 。 

3) 元 组 之 间 也 没有 上 下 顺序 差别 。 

4) 关系 中 没有 重复 的 元 组 。 

我 们 用 图 3-8 中 的 供应 商 关系 来 阐述 这 些 特 性 。 为 方便 起 见 ， 我 们 在 图 6-1 中 再 次 给 出 这 
关系 ， 并 在 表 头 中 加 入 类 型 名 。 注 意 : 同样 我 们 也 应 该 在 主体 中 加 入 属性 和 类 型 名 。 例 如 ， 供应 
商 Sl 对 应 于 S# 这 一 项 应 写 为 : 


S# S# S#('S1') 








STATUS : INTEGER : CHAR 





London 
Paris 


Paris 
London 
Athens 








图 6-1 供应 商 关系 (来自 图 3-8) 


然而 ， 为 简单 起 见 ， 我 们 仍然 使 主体 如 图 3-8 中 一 样 。 

1. 关系 的 特性 

关系 是 规范 化 的 

6. 2 节 中 说 过 ， 每 个 元 组 中 对 应 于 每 个 属性 都 包含 一 个 确定 的 值 ， 所 以 对 于 关系 中 的 每 个 元 

组 ， 对 应 的 每 个 属性 都 包含 一 个 确定 的 值 。 满足 此 特性 的 关系 被 称 作 规范 化 的 〈normalized ) ， 
或 称 作 属于 第 一 范式 (first normal form) ， 即 1INF。? 这 么 说 来 ， 图 6-1 中 的 关系 就 是 规范 化 的 。 

注意 : 第 一 个 特性 也 许 看 起 来 非常 明显 ， 事 实 上 也 是 一 一 特别 是 你 可 能 已 经 意识 到 ， 按 照 这 
样 的 定义 ， 所 有 的 关系 都 是 规范 化 的 ! 然而 ， 这 个 特性 并 没有 什么 重要 的 后 果 。 可 参见 本 节 后 面 
的 “关系 赋值 的 属性 ”小 节 以 及 第 19 章 。 

属性 由 左 到 右 ， 没 有 顺序 差别 

我 们 已 经 知道 一 个 元 组 中 的 各 组 成 部 分 没有 左右 顺序 差别 ， 同 样 ， 一 个 关系 中 的 各 个 属性 也 





合 元 素 是 没有 顺序 差别 的 ) 。 当 我 们 要 在 纸 面 上 将 关系 表示 成 表 ， 就 迫不得已 需要 将 这 些 列 从 左 
到 右 地 表示 出 来 ， 但 是 你 应 该 尽 可 能 忽略 顺序 差别 。 例 如 ， 在 图 6-1 中 ， 那 些 列 也 可 以 按 这 样 的 
顺序 排列 : SNAME，CITY，STATUS ，S# 一 一 这 两 组 数据 代表 的 是 同一 个 关系 ， 至 少 表示 的 是 
同一 个 关系 模型 .e 所 以 ， 这 里 没有 例如 “第 一 个 属性 ”或 “第 二 个 属性 ”这 样 的 说 法 ， 当 然 也 
没有 “下 一 个 属性 ”这 样 的 说 法 。 属 性 一 般 是 通过 名 字 来 表征 的 ， 而 不 是 通过 位 置 。 这 就 大 大 
减少 了 错误 和 恶意 程序 发 生 的 机 会 。 比 如 说 ， 通 过 从 一 个 属性 跳 到 另 一 个 属性 来 破坏 系统 的 办 法 
不 再 可 行 。 这 种 情况 不 同 于 其 他 很 多 编程 系统 ， 在 那些 系统 中 ， 可 以 故意 或 通过 其 他 一 些 恶意 的 
方法 利用 那些 逻辑 上 不 连续 但 物理 上 连续 的 数据 。 

元 组 由 上 到 下 ， 没 有 顺序 差别 

这 一 特性 是 因为 关系 的 主体 是 一 个 集合 (元 组 的 集合 ) ; 而 集合 在 数学 上 是 无 序 的 。 当 我 们 
要 在 纸 面 上 将 关系 表示 成 表 时 ， 就 不 得 不 将 这 些 行 从 上 到 下 地 表示 出 来 ， 但 是 你 应 该 尽 可 能 忽略 
顺序 差别 。 例 如 ， 在 图 6-1 中 ， 那 些 行 也 可 以 按 完全 相反 的 顺序 排列 -一 一 这 两 组 数据 代表 的 是 同 
一 个 关系 。 所 以 ， 这 里 没有 例如 “第 1 个 元 组 ”或 “第 5 个 元 组 ”或 “第 97 个 元 组 ”这 样 的 说 
法 ， 当 然 也 没有 “下 一 个 元 组 ”这 样 的 说 法 ， 换 句 话 说， 这 里 没有 位 置 寻 址 的 概念 ， 也 没有 





全 ”之 所 以 称 具 为 第 一 范式 ， 是 因为 下 面 还 会 定义 第 二 范式 、 第 三 范式 等 更 高 级 别 的 范式 ( 见 第 12、13 章 ) 。 
@@ 在 数学 的 关系 中 ， 属 性 有 从 左 到 右 的 顺序 〈 元 组 也 是 有 顺序 的 ) ， 与 关系 模型 中 的 属性 无 顺序 是 不 同 的 。 





和 席 6 苹 关 夭 89 


“下 一 个 ”的 概念 。 要 注意 ， 如 果 我 们 有 这 些 概 念 的 话 ， 就 应 该 会 有 一 些 额 外 的 操作 符 一 一 例 
如 ,“ 取 出 第 个 元 组 ”,“ 将 新 的 元 组 插入 到 这 里 ”, “将 这 个 元 组 从 这 里 移 到 那里 ”， 等 等 。 关 
系 模型 的 一 个 重要 特征 (也 是 Codd 的 信息 原则 的 直接 结果 ) 就 是 ， 有 且 只 有 一 种 途径 来 表示 模 
型 中 的 信息 ， 我 们 只 需要 唯一 的 一 种 操作 符 集合 来 处 理 它 。 

继续 讨论 上 面 提 到 的 这 一 点 : 事实 上 ， 显 而 易 见 ， 如 果 我 们 有 N 种 不 同 的 方法 来 表示 信息 ， 
那么 必然 需要 N 种 不 同 的 操作 符 集 合 。 如 果 N>1， 那 么 我 们 就 有 更 多 的 操作 要 去 遵守 、 记 录 、 
教 、 学 、 记 忆 和 使 用 。 但 是 这 些 额 外 的 操作 符 只 是 增加 了 复杂 度 ， 对 表达 信息 并 不 有 益 ! N>1 
时 能 做 的 并 不 比 W=1 时 能 做 得 更 多 。 在 第 26 章 中 我 们 会 继续 讨论 这 个 问题 (参考 [26. 12 ~ 
26. 14] 以 及 [26.17]), 第 27 章 中 也 会 介绍 。 

回 到 对 关系 的 讨论 中 来 。 当 然 ， 一 些 元 组 从 上 到 下 有 序 排列 的 情形 同样 还 有 属性 从 左 到 
右 有 序 排列 的 情形 在 数据 库 和 宿主 语言 (如 C 或 者 COBOL) 之 间 的 接口 中 是 必需 的 (〈 见 第 
4 章 对 SQL 光标 和 ORDER BY 的 讨论 )。 不 过 是 宿主 语言 而 不 是 关系 模型 提出 了 这 种 要 求 ; 宿主 
语言 要 求 将 无 序 的 关系 转变 为 有 序 的 列表 或 排列 (元 组 序列 ) 的 形式 ， 这样 “取出 第 NN 个 元 组 ” 
才 有 意义 。 同 样 ， 当 要 把 查询 结果 呈现 给 用 户 时 ， 也 会 涉及 元 组 有 序 排列 的 概念 。 然 而 ， 这 样 的 
概念 并 不 属于 关系 模型 ， 它 们 属于 关系 的 实现 环境 的 一 部 分 。 

关系 中 没有 重复 元 组 

这 种 特性 也 是 来 自 于 关系 的 主体 是 一 个 集合 这 个 事实 ; 集合 在 数学 上 是 不 包含 重复 元 组 的 
( 即 元 组 之 间 都 是 不 相同 的 )。 

注意 : 这 个 特性 再 次 前 明 了 关系 和 表 并 不 是 一 回 事 ， 因 为 表 中 可 以 包含 重复 的 行 (没有 任 
何 规则 阻止 这 样 的 可 能 性 ) ， 但 是 关系 按照 定义 绝对 不 能 包含 任何 重复 元 组 。 

事实 上 ， 显 而 易 见 , “重复 元 组 ”的 概念 并 没有 任何 意义 。 简 单 假设 图 6-1 中 的 关系 只 含有 
两 个 属性 S# 和 CITY， 根据 6.5 节 的 说 明 “ 供 应 商 S# 位 于 城市 CITY”， 我 们 假设 关系 中 包含 一 个 
元 组 表现 了 这 样 一 个 “事实 ” : 供应 商 S1 位 于 城市 London。 如 果 关 系 中 还 包含 了 一 个 同样 的 元 
组 (如 果 这 是 允许 的 话 ) ， 也 就 是 再 次 告知 我 们 同样 的 “事实 ”。 但 就 算 这 是 事实 ,说 两 遍 也 无 
益 于 增加 它 的 真实 性 ! 

对 重复 元 组 的 进一步 讨论 可 参考 [6.3] 和 [6.6]。 

2. 关系 与 表 

为 了 便于 参考 ， 我 们 在 这 一 小 节 中 列 出 关系 这 种 正规 的 对 象 和 表 这 种 不 正规 的 对 象 之 间 的 主 
要 区 别 : 

1) 在 关系 中 ， 表 头 里 的 每 个 属性 都 包含 有 一 个 类 型 名 ， 但 是 在 表 的 形式 中 常常 省 略 类 
型 名 。 

2) 在 关系 中 ， 主 体 里 的 每 个 元 组 的 各 项 都 包含 一 个 类 型 名 和 一 个 属性 名 ， 但 是 在 表 的 形式 
中 常常 省 略 这 些 类 型 名 和 属性 名 。 

3) 在 关系 中 ， 主 体 里 的 每 个 元 组 的 各 属性 值 都 属于 某 种 可 用 类 型 ， 但 是 在 表 的 形式 中 这 些 
值 通常 用 一 些 简 化 的 形式 表示 例如 ,用 Sl 代替 S# (“S1 )。 

4) 表 的 形式 中 的 那些 列 从 左 到 右 是 有 序 的 ， 但 是 关系 中 的 那些 属性 是 无 序 的 。 注 意 : 这 意 
味 着 在 表 的 那些 列 中 可 能 含有 重复 的 名 字 ， 或 者 根本 就 没有 名 字 ， 例如， 考虑 如 下 这 个 SQL 
查询 : 

SELECT S.CITY, S.STATUS * 2, P.CITY 

FROM S, Pp; 


查询 结果 中 得 到 的 列 名 是 什么 呢 ? 

5) 在 表 的 形式 中 各 行 是 从 上 到 下 有 序 的 ， 而 关系 中 的 各 元 组 之 问 无 序 。 

6) 在 表 的 形式 中 可 能 包含 重复 的 行 ， 但 是 关系 中 不 包含 重复 元 组 。 

前 述 并 没有 详尽 地 给 出 所 有 的 区 别 ， 其 他 的 一 些 区 别 如 下 : 

sa 在 表 的 形式 中 至 少 含有 一 个 列 ， 然 而 关系 中 却 要 求 至 少 含有 一 个 属性 (参见 这 一 节 中 后 
面 的 一 个 小 节 “ 不 含 任何 属性 的 关系 ”) 。 
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a 在 表 的 形式 中 一 一 至 少 在 SQL 中 一 一 允许 包含 空 行 ， 然 而 关系 中 不 允许 ( 见 第 19 章 )。 

a 表 被 认为 是 “平面 的 ”或 是 “二 维 的 ”"， 然 而 关系 却 是 “n 维 的 ”( 见 第 22 章 ) 。 

鉴于 上 述 ， 为 了 使 表格 能 被 用 来 表示 一 个 关系 ， 我 们 就 必须 在 怎么 “ 读 ” 这 样 的 表格 方面 
达成 共识 ; 换 名 话说， 我 们 必须 在 对 这 类 图 表 的 “解释 原则 ” (mules of interpretation) 上 达成 共 
识 。 明 确 地 说 ， 我 们 认为 每 一 列 都 潜在 地 属于 一 个 类 型 ; 每 一 个 属性 值 都 是 一 个 属于 这 种 相应 类 
型 的 值 ; 行 和 列 的 排列 顺序 都 是 不 相关 的 ; 而 且 不 允许 重复 行 的 出 现 。 如 果 我 们 能 在 这 些 解释 原 
则 上 达成 共识 ,那么 (也 只 有 这 样 ) 我 们 才能 认为 表 是 关系 的 合理 表示 形式 。 

至 此 可 知 ， 表 和 关系 实际 上 并 不 是 一 回 事 (尽管 有 时 为 了 方便 我 们 会 假设 成 一 样 )。 进 一 步 
说 ， 关 系 被 定义 为 一 种 抽象 的 对 象 ， 而 表 则 是 一 种 具体 的 图 形 ， 是 抽象 的 对 象 在 纸 面 上 的 具体 表 
示 ， 它 们 并 不 完全 一 样 。 当 然 ， 它 们 很 相似 ， 至 少 在 不 正规 的 场合 ， 经 常 将 它们 说 成 是 一 回 事 也 
是 可 以 接受 的 。 如 果 和 希望 尽量 精确 一 一 现在 我 们 正在 尽力 做 到 精确 一 一 我 们 就 不 得 不 承认 它们 其 
实 是 两 个 不 同 的 概念 。 

也 就 是 说 ， 我 们 值得 指出 ， 关 系 模型 中 的 关系 这 种 抽象 对 象 能 在 纸 面 上 简单 地 表示 出 来 ， 这 
确实 是 一 个 巨大 的 优势 。 这 种 简单 的 表示 形式 使 得 关系 系统 容易 使 用 和 理解 ， 而 且 容 易 理 解 关 系 
系统 的 运行 方式 。 然 而 ， 不幸 的 是 ， 这 种 简单 的 表示 形式 会 表示 出 一 些 不 正确 的 信息 (如 : 元 
组 从 上 到 下 有 序 )。 

3. 关系 赋值 的 属性 [s# | SNRAME | STRTUS 

如 6.3 节 中 所 述 ， 一 般 说 来 ， 关 系 中 的 属性 
可 以 定义 为 任何 类 型 。 那 么 关系 类 型 作为 一 种 类 
型 ， 也 可 以 用 来 定义 关系 中 的 属性 ; 换 句 话说 ， 
属性 可 以 是 关系 赋值 (relation-valued) 的 ， 意 思 
是 我 们 可 以 有 这 样 的 关系 ， 它 的 属性 值 还 是 关系 。 
换言之 ， 我 们 可 以 有 嵌 套 其 他 关系 的 关系 。 图 6-2 
中 给 出 了 这 种 关系 的 一 个 实例 。 观 察 此 关系 知 
(a) 属性 PQ 是 关系 赋值 的 ，(b) 关系 的 势 和 度 
都 是 5; (c) 由 供应 商 $5 提供 的 空 的 零件 集 表 示 
成 PQ 的 值 为 一 个 空 集 (更 精确 地 说 ， 是 一 个 空 的 
关系 ) 。 

在 这 里 ， 我 们 提起 关系 赋值 的 属性 的 主要 原 图 6-2 有 关系 赋值 属性 的 关系 
因 是 ， 在 过 去 ， 这 样 可 能 被 认为 是 不 合 规则 的 。 
事实 上 ， 本 书 的 早 些 版 本 中 也 是 这 样 认为 的 。 例 如 ， 下 面 这 段 话 是 从 本 书 的 第 6 版 中 摘录 的 : 

注意 ， 所 有 的 列 值 都 具有 原子 性 …… 也 就 是 说 ， 一 个 表 中 每 一 个 行列 交叉 的 位 置 上 都 存在 一 
个 具体 的 数值 ， 绝 不 是 一 组 值 。 比 如 说 ， 在 表 EMP 中 ,我 们 用 








在 第 二 个 表 中 ，EMP# 列 就 是 我 们 称 之 为 重复 组 的 一 个 很 好 的 例子 。 一 个 重复 组 就 是 这 样 的 
一 列 ,在 某 一 行 上 包含 好 几 个 值 (一 般 说 来 ， 不 同行 上 值 的 个 数 不 同 ) 。 关 系数 据 库 不 允许 重复 
组 的 出 现 ， 所 以 在 关系 系统 中 ， 上 面 的 第 二 个 表 是 不 允许 出 现 的 。 

稍 后 在 同一 本 书 中 我 们 找到 :“ 域 (也 就 是 类 型 ) 只 包含 原子 值 …… 所 以 ， 关 系 不 包含 重复 
组 。 满 足 这 个 条 件 的 关系 被 称 为 是 规范 化 的 ， 或 者 也 可 以 说 是 满足 第 一 范式 的 …… 在 关系 模型 的 
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上 下 文中 提 到 的 关系 指 的 都 是 规范 化 的 关系 。” 

这 种 说 法 其 实 是 不 正确 的 ， 然 而 (至 少 不 完 全 正确 ): 这 其 实 是 因为 对 作者 有 关 类 型 ( 域 ) 
本 质 的 描述 产生 了 误解 。 由 于 第 12 章 中 介绍 的 原因 ( 见 12.6 节 ) ， 这 种 误解 在 现实 中 不 太 可 能 
导致 任何 严重 的 错误 ; 尽管 如 此 ， 仍 然 需 要 向 受到 误导 的 人 表示 道歉 。 至 少 在 第 6 版 中 已 经 修正 
为 : 关系 模型 中 所 有 的 关系 都 是 规范 化 的 ! 第 12 章 中 会 详细 讨论 这 一 点 。 

4. 不 含 任何 属性 的 关系 

每 个 关系 都 包含 一 个 属性 的 集合 ; 并 且 ， 由 于 空 集 也 是 一 个 集合 ， 所 以 ， 一 个 关系 的 属性 集 
是 空 集 也 是 可 能 的 ， 换 名 话说， 就 是 不 含 任何 属性 。 (不 要 混淆 的 是 : 我 们 经 常 说 到 “关系 为 
空 ”， 意 思 是 这 个 关系 不 含 任 何 元 组 ， 但 是 这 里 不 同 ， 我 们 说 的 是 关系 的 表 头 包含 空 的 属性 集 。) 
所 以 ， 从 数学 角度 来 看 ， 不 含 任何 属性 的 关系 是 合理 的 ， 更 让 人 惊讶 的 是 ， 从 实际 角度 出 发 ， 这 
样 的 关系 也 尤为 重要 。 

为 了 更 深入 地 了 解 这 个 概念 ， 我 们 首先 需要 考虑 这 个 问题 ， 不 含 任何 属性 的 关系 是 否 能 够 包 
含 元 组 。 回 答 (尤为 惊讶 ) 是 能 ! 具体 来 说 ， 这 样 的 关系 至 多 能 包含 一 个 元 组 : 叫做 0 元 组 
(也 就 是 不 包含 任何 内 容 的 元 组 ; 这 样 的 关系 不 能 包含 多 于 一 个 的 这 样 的 元 组 ， 因 为 所 有 的 0 元 
组 都 是 彼此 相同 的 ) 。 所 以 就 出 现 了 两 种 度 为 0 的 关系 一 一 一 个 就 是 只 包含 一 个 元 组 的 ， 另 一 个 
就 是 不 包含 任何 元 组 的 。 按 照 Darwen [6.5] 的 说 法 ， 它 们 有 两 个 可 爱 的 名 字 : 第 一 个 称 作 TA- 
BLE_DEE， 另 一 个 称 为 TABLE_DUM， 或 者 简称 DEE 和 DUM。 注 意 ， 当 把 关系 想 成 是 另类 传 
统 的 表 的 时 候 ， 我 们 很 难为 DEE 和 DUM 这 样 的 关系 画 出 图 示 ! 

为 什么 DEE 和 DUM 这 么 重要 呢 ? 对 这 个 问题 我 们 或 多 或 少 有 几 个 相关 的 答案 。 一 个 就 是 
它们 在 关系 代数 中 扮演 着 很 重要 的 角色 一 一 见 第 7 章 一 一 有 点 类 似 于 空 集 在 集合 理论 中 ，0 在 普 
通 算术 中 扮演 的 角色 。 另 一 个 就 和 关系 的 用 意 有 关系 了 ( 见 文献 [6.5] ); 本 质 上 看 ，DEE 代表 
着 TRUE， 或 者 yes， 而 DUM 代表 着 FALSE， 或 者 no。 换 句 话 说 ， 它 们 代表 着 最 基础 的 概念 。 
( 记 住 娜 个 是 哪个 的 最 好 方法 就 是 DEE 中 的 “E” 匹 配 yes 中 的 “e” ,) 

在 Tutorial D 中 ， 表 达 式 TABLE_DEE 和 TABLE_DUM 可 分 别 被 用 作 关 系 RELATION { } 
{ TUPLE{ } } 和 RELATION{t } { } 的 缩写 。 

这 里 我 们 不 可 能 在 这 个 话题 上 更 深入 了 ; 这 些 内 容 在 你 前 面 遇 到 DEE 或 者 DUM 的 时 候 已 
经 足够 用 ， 详 细 的 讨论 见 参考 文献 [6. 5 ] 。 

5. 关系 上 的 操作 符 

在 6.3 节 中 我 们 简单 地 提 到 了 关系 的 选择 子 、 赋 值 和 相等 性 比较 这 些 操作 符 。 当 然 ， 比 较 操 
作 符 “<” 和 “>” 是 不 适用 于 关系 的 ; 然而 ， 关系 中 还 可 以 几 其 他 的 一 些 比较 符 ， 除了 最 简 
单 的 相等 之 外 ， 下 面 我 们 会 说 到 。 

关系 的 比较 ”我 们 用 如 下 的 语法 来 定义 一 种 新 的 < bool exp > ，< relation comp > : 


<relation exp> <relation comp op> <relation exp> 


关系 中 出 现 的 两 个 < relation exp > 必须 是 属于 同 种 类 型 的 ， 而 < relation comp op > 必须 是 下 面 的 
一 种 : 





(相等 ) 
(不 相等 ) 
(包含 于 ) 
( 真 包含 于 ) 
(包含 ) 
( 真 包含 ) 
任何 需要 出 现 < bool exp > 的 地 方 我 们 都 允许 出 现 < relation comp > 一 一 例如 ， 在 一 个 
WHERE 从 名 里 。 这 里 有 两 个 例子 : 
1) s {cITY } = P {CITY} 
含义 : 对 于 给 定 的 CITY， 在 供应 商 上 的 投影 等 价 于 在 零件 上 的 投影 吗 ? 
2) s {Ss#}D SP{S#} 


UUNINMN#A 





92 和 锚 二 部 分 光 系 机 型 


含义 : 有 根本 不 提供 任何 零件 的 供应 商 吗 ? 

实际 中 经 常会 用 到 的 一 种 特殊 的 关系 比较 是 ， 测 试 一 个 给 定 的 关系 是 否 等 价 于 同一 类 型 的 空 
的 关系 〈 也 就 是 说 ， 不 包含 任何 元 组 ) 。 给 这 种 特殊 的 情况 找 一 个 简写 形式 是 很 有 用 的 。 所 以 我 
们 定义 表达 式 


IS EMPTY ( <relation exp> ) 


如 果 由 < relarion exp > 表示 的 关系 是 空 的 话 ， 则 返回 TRUE， 否 则 返回 FALSE。 
其 他 的 操作 符 ”我 们 还 要 求 能 判断 一 个 给 定 的 元 组 ! 是否 出 现在 一 个 给 定 的 关系 中 : 


Le 专 


如 果 上 在 中 出 现 ， 则 返回 值 为 TRUE， 否则 为 FALSE (“ee ”是 一 种 集合 成 员 判 断 操 作 ， 表 达 
式 ter 可 解释 为 “属于 r” 或 者 “! 是 7 的 成 员 ”, 或 者 简单 地 说 成 “1 是 在 r 中 ")。 
我 们 还 需要 从 度 为 1 的 关系 中 提取 出 那个 单独 的 元 组 : 


TUPLE FROM r 


这 个 表达 式 在 + 不止 包含 一 个 元 组 的 时 候 会 出 现 异 常 ， 否 则 ， 返 回 的 就 是 那个 单独 的 元 组 。 
除了 至 今 讨论 过 的 那些 操作 ， 还 有 很 多 常见 的 操作 一 一 连接 、 选 择 、 投 影 等 一 一 组 成 关系 代 
数 的 一 些 操作 。 下 一 章 会 详细 介绍 这 些 操作 。 
关系 类 型 推论 ”就 像 6.2 节 中 描述 的 ， 元 组 类 型 命名 模式 方便 了 确定 任意 元 组 表达 式 的 结果 
类 型 ， 同 样 在 6. 3 节 中 ,关系 类 型 命名 模式 方便 了 确定 任意 关系 表达 式 的 结果 类 型 。 第 7 章 中 会 
有 更 详尽 的 讨论 ; 这 里 只 给 出 一 个 简单 的 例子 。 给 定 的 供应 商 关系 变量 为 S， 表 达 式 


Ss { S#, CITY } 


产生 这 种 类 型 的 结果 (关系 ): 


RELATION { S# S#, CITY CHAR } 


类 似 的 过 程 适用 于 各 种 可 能 的 关系 表达 式 。 
ORDER BY 为 了 展示 的 和 需要， 我们 强烈 要 求 提供 ORDER BY 操作 ， 就 像 在 SQL 中 一 样 
( 见 第 3 章 ) 。 这 里 省 略 了 具体 的 定义 ， 因 为 语义 已 经 很 明显 了 。 然 而 还 要 注意 ; 
ws ORDER BY 用 于 将 元 组 排列 成 某 种 具体 的 序列 ， 然 而 元 组 不 能 定义 “<” 和 “> ”的 
关系 。 
sm ORDER BY 不 是 一 种 关系 操作 ， 因 为 它 的 返回 值 不 是 一 个 关系 。 
s ORDER BY 不 是 一 种 函数 操作 ， 因 为 一 般 说 来 ， 对 于 一 个 给 定 的 输入 会 产生 很 多 种 可 能 
的 输出 。 
作为 最 后 一 点 的 示例 ， 我 们 考虑 ORDER BY CITY 操作 对 图 6-1 中 的 供应 商 关系 的 影响 。 显 
然 ， 这 个 操作 能 返回 4 种 不 同 的 结果 中 的 任何 一 种 。 相 反 ， 关 系 代数 中 的 操作 当然 是 丽 数 操作 
了 一 一 对 于 任何 给 定 的 输入 ， 经 常 只 有 一 种 可 能 的 输出 。 


6.5 关系 变量 


现在 来 讨论 关系 变量 。 回 忆 第 3 章 的 内 容 ， 关 系 变量 分 为 两 类 ， 基 本 的 关系 变量 和 视图 (也 
可 分 别称 作 实 的 和 虚 的 关系 变量 )。 这 一 节 将 主要 讨论 基本 的 关系 变量 (第 10 章 中 再 讨论 视 
图 ) ; 然而 要 注意 ， 这 里 讨论 的 关于 关系 变量 的 内 容 ， 是 针对 一 般 意 义 上 的 关系 变量 而 言 的 ， 当 
然 也 包括 视图 。 

1. 基本 的 关系 变量 定义 

这 里 给 出 基本 关系 变量 的 一 个 定义 : 

VAR <relvar name> BASE <relation type> 


<candidate key def list> 
[ <foreign key def list> };} 
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< relation type > 的 形式 是 


RELATION { <attribute commalist> } 


(事实 上 就 像 6.3 节 中 讨论 的 那样 ， 这 里 是 对 关系 类 型 生成 器 的 一 个 调用 ) 。 一 会 我 们 再 解释 
< candidate key def list > 和 可 选 的 < Joreign key def list > 。 这 里 作为 例子 给 出 的 是 供应 商 和 零件 数 
据 库 中 基本 关系 变量 的 定义 (数据 来 自 图 3-9): 
VAR 5 BASE RELATION 
{ 5# S#, 
SNAME NAME, 
STATUS INTEGER, 
CITY CHAR } 
PRIMARY KEY { S# }; 
VAR P BASE RELATION 
{ P# Pp#， 
PNAME NAME, 
COLOR COLOR, 
WEIGHT WEIGHT, 
CIYY CHAR } 
PRIMARY KEY { P# }; 


VAR SP BASE RELATION 
{ S# S#, 
Pp# P#, 
QTY QTY } 
PRIMARY KEY { S#, P# } 


FOREIGN KEY { S# } REFERENCES S 
FOREIGN KEY { P# } REFERENCES P ; 


解释 : 
1) 这 三 个 基本 的 关系 变量 都 具有 下 列 类 型 : 


RELATION { S# S#, SNAME NAME, STATUS INTEGER, CITY CHAR } 


RELATION { P# P#, PNAME NAME, COLOR COLOR, 
WEIGHT WEIGHT, CITY CHAR } 


RELATION { S# S#, P# P#, OTY QTY } 


2) 表 头 、 主 体 、 属 性 、 元 组 、 度 等 之 前 用 于 关系 值 的 术语 也 被 应 用 到 关系 变量 上 。 

3) 对 于 任何 一 个 给 定 的 关系 变量 ， 所 有 可 能 的 值 都 有 相同 的 关系 类 型 ， 即 关系 变量 定义 中 
指定 的 关系 类 型 〈( 如 果 给 定 的 关系 变量 为 视图 ， 则 不 是 直接 指定 的 ) 。 因 此 ， 这 些 值 也 含有 相同 
的 表 头 信息 。 

4) 在 定义 一 个 基本 的 关系 变量 时 ， 这 个 关系 变量 同时 也 被 赋予 一 个 相应 的 初 值 一 一 合适 类 
型 的 空 关系 。 

5) 在 第 9 章 中 ， 我们 将 给 出 候选 码 的 详细 定义 。 在 这 之 前 ， 我 们 先 简单 地 假设 一 个 基本 的 
关系 变量 定义 包含 且 仅 包含 一 个 具有 下 列 特殊 形式 的 < candidate key def > : 


PRIMARY KEY { <attribute name commalist> } 


6) 在 第 9 章 中 ， 我 们 同样 也 将 给 出 外 码 的 定义 。 

7) 在 定义 一 个 新 的 关系 变量 时 ， 系 统 同时 在 目录 中 生成 用 于 描述 这 个 关系 变量 的 条 目 。 

8) 就 像 第 3 章 中 提 到 的 ， 关 系 变量 和 关系 一 样 ， 都 含有 一 个 相应 的 谓词 ， 对 于 我 们 问题 中 
的 关系 变量 ,会 有 一 系列 可 能 的 值 ， 即 一 系列 的 关系 ， 而 这 个 谓词 和 所 有 这 些 作 为 关系 变量 的 值 
的 关系 相同 。 对 于 前 面 提 到 的 供应 商 的 关系 变量 S 而 言 ， 它 的 谓词 类 似 于 下 列 形式 : 

供应 商 编号 为 S# 的 供应 商 的 名 字 为 SNAME ， 并 且 在 合同 约束 期 限 内 ， 其 状态 为 STATUS， 
该 供应 商 所 在 的 城市 为 CITY。 

9) 我 们 假设 可 以 用 一 个 平均 值 来 指定 基本 关系 变量 的 属性 的 默认 值 。 如 果 用 户 在 插入 某 些 
元 组 时 没有 提供 一 个 显 式 信 ， 默 认 值 就 会 自动 放 在 合适 的 属性 位 置 上 。Tutoriat D 中 给 出 了 一 种 
用 于 指定 默认 值 的 语法 一 一 在 基本 关系 变量 的 定义 上 增加 一 个 新 的 从 旬 ，DEFAULT | < default 
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spec commalist > | ， 其 中 每 一 个 < default spec > 的 形式 为 < attribute name > < default > 。 比 如 ， 
我 们 可 以 在 供应 商 关系 变量 S 的 定义 中 指定 DEFAULT {STATUS 0, CITY " | 。 注 意 ; 候选 码 通 
常 〈 当然 并 不 绝对 ) 都 没有 默认 值 ( 见 第 19 章 )。 

下 面 是 删除 一 个 已 存在 的 基本 关系 变量 的 语法 : 


DROP VAR <relvar name> ;} 


这 个 操作 首先 将 指定 的 关系 变量 的 值 置 为 “ 空 ”( 换 句 话 说， 就 是 它 会 删除 这 个 关系 变量 
中 的 所 有 元 组 ) ;然后 它 会 删除 该 关系 变量 相关 的 所 有 目录 条 目 。 到 此 为 止 ， 这 个 关系 变量 
就 不 再 为 系统 所 能 够 识别 。 注 意 : 为 了 简单 起 见 ， 我 们 假设 只 要 待 删除 的 关系 变量 在 别处 
还 在 ， 可 能 其 他 地 方 的 视图 定义 引用 了 这 个 关系 
变量 。 

2. 更 新 关系 变量 

关系 模型 中 包含 一 个 关系 赋值 操作 用 于 分 配 值 ， 即 更 新 关系 变量 (特别 是 基本 关系 变量 ) 
的 值 。 下 面 是 Tutorial D 中 所 用 语法 〈 做 了 一 点 点 简化 ) : 


<relation assignment> 
: := <relation assign commalist> } 





<relation assign> 
<relvar name> := <relation exp> 


该 表达 起 的 请 义 如 下 所 未, 首先 ， 所 有 位 于 < relation assign > 右边 的 < relation exp > 表达 
式 都 被 计算 一 遍 ; 然后 ， 根 据 所 写 的 次 序 执行 所 有 的 < relation assign > 表达 式 。 通 过 计算 右边 的 
<relafion exp > ， 我 们 可 以 得 到 一 个 关系 ， 这 样 执行 一 个 < relation assign > 过 程 就 是 将 这 个 关系 
指定 给 左边 的 < relvar name > 所 标识 的 关系 变量 (替换 这 个 关系 变量 原 有 的 值 )。 当 然 ， 这 里 关 
系 和 相应 的 关系 变量 必须 具有 相同 的 类 型 。 

作为 一 个 例子 ， 假 设 我 们 还 有 两 个 具有 相同 类 型 的 基本 关系 变量 S 和 SP ， 我们 把 这 两 个 关 
系 变量 分 别 作为 供应 商 的 关系 变量 S 和 发 货 关 系 变量 SP: 


VAR S' BASE RELATION 
{ S# S#, SNAME NAME, STATUS INTEGER, CITY CHAR } . 


VAR SP' BASE RELATION 
{ S# S#, P#¥ P#, QTY QTY } ... ; 


下 面 是 一 些 有 效 的 < relation assignment > 的 例子 : 


1)s' := 8S8，SpB' := SP 
2)s' := S WHERE CITY = 'London’ ; 
3)S' := S WHERE NOT ( CITY = 'Paris' }; 


这 里 要 注意 的 是 ， 每 一 个 单独 的 < relation assign > 可 以 被 看 作 : (a) 提取 表达 式 右 边 所 指 
定 的 表达 式 ， 以 及 (b) 更 新 表达 式 左边 的 关系 变量 。 

现在 假设 我 们 将 在 第 二 和 第 三 个 例子 中 用 关系 变量 S 来 替换 左边 的 关系 变量 S : 

2)s := S WHERE CITY = ‘London' ; 

3)s := S WHERE NOT ( CITY = 'Paris' ); 


这 两 个 赋值 对 于 关系 变量 S 来 说 都 是 有 效 的 更 新 一 一 一 个 有 效 地 删除 了 所 有 不 在 London 的 供 
应 商 ， 另 一 个 有 效 地 删除 了 所 有 在 Paris 的 供应 商 。 为 了 简单 起 见 ， 在 Tutorial D 中 支持 了 显 式 的 
INSERT、DELETE 和 UPDATE 操作 ， 但 是 每 个 这 样 的 操作 都 被 定义 为 某 种 < relation assign > 的 快 
捷 方 式 。 下 面 是 一 些 例子 : 


G 在 72 页 第 5 章 丢 注 中 我 们 给 出 了 一 些 例外 情况 。 
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1) INSERT S RELATION { TUPLE { S# S# ('S6'), 
SNAME NAME ('Smith'), 
STATUS 50, 
CITY Rome } 》 


等 价 的 一 个 赋值 如 下 : 


S := S UNION RELATION { TUPLE { S# s# ('S6'), 
SNAME NAME (‘Smith'), 
STATUS 50, 


CITY 'Rome'’ } } : 


这 里 要 注意 的 是 ， 如 果 供 应 商 56 所 指定 的 元 组 已 经 存在 于 关系 变量 S 中 ， 这 个 赋值 操作 就 会 成 
功 。 在 实际 应 用 中 ， 我们 可 以 考虑 通过 下 列 方法 来 改进 INSERT 操作 :如 果 要 插入 的 元 组 已 经 存 
在 ， 则 抛 出 一 个 例外 。 当 然 ， 这 里 为 了 简单 起 见 ， 我 们 暂时 不 考虑 这 种 情况 。 类 似 的 ， 对 于 DE- 
LETE 和 UPDATE 操作 也 做 同样 的 处 理 。 

2) DELETE S WHERE CITY = 'Paris' ; 


等 价 的 一 个 赋值 如 下 : 


S := S WHERE NOT ( CITY = 'Paris' ) ; 


3) UPDATE S WHERE CITY = 'Paris， 
{ STATUS := 2 * STATUS, 
CITY := 'Rome' } ; 


等 价 的 赋值 如 下 : 


S := WITH ( S WHERE CITY = 'Paris' )} AS 71 
( EXTEND T1 ADD ( 2 * STATUS AS NEW STATUS ， 
'Rome' RS NEW CITY ) ) RS ?2 ， 
T2 { ALL BUT STATUS, CITY } AS T3 ， 
( T3 RENAME ( NEW_STRTUS RS STATUS, 
NEW CITY AS CITY ) ) RS T4 : 
{ S MINUS T1 ) UNION T4 ; 


在 这 个 例子 中 我 们 可 以 看 到 ， 一 个 等 价 的 赋值 通常 有 着 更 复杂 的 形式 。 事 实 上 ， 这 是 由 几 个 
特征 决定 的 一 一 在 下 一 章 里 才 会 详细 解释 。 这 里 我 们 先 不 做 更 多 的 讨论 。 
为 了 引用 起 见 ， 下 面 是 NSERT、DELETE 和 UPDATE 操作 的 一 个 简单 的 语法 综述 : 


INSERT <relvar name> <relation exp> :; 


DELETE <relvar name> [ WHERE <bool exp> }]】; 
UPDATE <relvar name> [ WHERE <bool exp> 1 
{ <attribute update commalist> } ; 


相应 的 一 个 < attribute update > 的 形式 如 下 : 


<attribute name> := <exp> 


同样 ，DELETE 和 UPDATE 语句 中 的 < bool exp > 表达 式 能 够 包含 对 目标 关系 变量 的 属性 的 
引用 。 而 且 ， 这 些 引 用 具有 明显 的 语义 。 

最 后 在 这 一 小 节 结 束 之 前 我 们 再 强调 一 遍 : 关系 赋值 以 及 相关 的 INSERT，DELETE 和 UP- 
DATE 等 操作 都 是 集合 层次 上 的 操作 。” 比如 ， 对 于 UPDATE 来 说 ， 不 严格 地 说 ， 就 是 更 新 了 目 
标 关 系 变量 中 的 某 一 元 组 的 集合 。 在 不 太 正 式 的 情况 下 ， 通 常 我 们 会 说 〈 比 如 ) 更 新 某 个 单独 
的 元 组 ， 但 是 事实 上 我 们 必须 对 此 有 如 下 的 清楚 理解 : 

1) 实际 上 我 们 是 在 谈论 如 何 更 新 一 个 元 组 的 集合 ， 因 此 更 新 单个 元 组 的 情况 事实 上 是 磁 巧 
这 个 集合 中 只 包含 单个 元 组 。 





”相应 的 ， 从 定义 上 来 说 ， 在 现行 SQL 规范 中 的 DELETE 和 UPDATE 操作 ( 见 4.6 节 ) 都 是 元 组 层次 (或 者 行 
层次 ) 的 ， 因 此 都 是 不 当 的 。 
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2) 在 某 些 时 候 是 不 可 能 更 新 基数 为 1 的 元 组 的 集合 的 。 

比如 ,假设 存在 一 个 完整 性 约束 一 一 Sl 和 S4 必须 有 相同 的 状态 ( 见 第 9 章 ) ， 而 供应 商 关 
系 变量 必须 受到 这 个 完整 性 约束 的 限制 。 因 此 ， 对 于 任何 “单个 元 组 ”的 UPDATE 来 说 ,不 可 
能 只 更 新 两 个 供应 商 中 的 一 个 ， 而 必须 同步 更 新 两 个 供应 商 的 信息 。 如 下 所 示 : 

UPDATE S WHERE S# = S# ('S1') OR S# = S# ('S4') 

{ STATUS := some value };} 

为 了 把 这 个 问题 说 得 更 清楚 一 些 ， 必 须 认识 到 这 里 所 说 的 在 一 个 关系 变量 中 “更 新 一 个 元 组 或 
者 一 个 元 组 的 集合 ”的 说 法 事实 上 还 是 比较 宽松 的 。 与 关系 一 样 ， 元 组 都 是 确定 的 值 ， 而 且 根 据 定 
义 来 说 是 无 法 修改 的 。 因 此 ， 当 我 们 说 到 “将 元 组 ! 更 新 成 元 组 上 ”， 事 实 上 指 的 是 将 元 组 上 (1 中 
的 值 ) 蔡 换 成 另外 一 个 元 组 上 (同样 指 的 是 +" 中 的 值 ) .2 同样 ， 对 于 在 一 些 元 组 中 “更 新 其 中 的 某 
个 属性 4” 来 说 ， 情 况 也 是 类 似 的 。 在 本 书 中 ， 为 了 方便 起 见 ， 我 们 将 会 继续 沿用 “更 新 元 组 ”和 
“更 新 属性 ”的 说 法 。 但 是 ， 这 样 说 的 目的 只 是 为 了 简便 起 见 ， 它 是 很 宽松 的 说 法 。 

3. 关系 变量 和 关系 变量 的 解释 

在 本 节 的 最 后 我 们 对 下 列 情况 给 出 一 些 提示 (就 像 3.4 节 中 解释 的 那样 ) : (a) 任何 一 个 给 
定 的 关系 变量 都 能 被 看 作 一 个 谓词 ， 同 时 (b) 任何 时 刻 在 关系 变量 上 出 现 的 元 组 都 可 以 看 成 相 
应 的 真 命题 。 通 过 使 用 合适 的 类 型 来 兰 换 相应 谓词 的 参数 ， 就 可 以 得 到 这 样 的 命题 (“实例 化 谓 
词 " ) 。 对 于 一 个 给 定 的 关系 变量 ， 我 们 可 以 说 相应 的 谓词 是 该 关系 变量 的 扩展 解释 (或 者 说 意 
义 ) ;同时 ， 该 关系 变量 的 元 组 对 应 的 命题 也 约定 俗 成 地 认为 是 正确 的 。 事 实 上 ， 根 据 封 闭 世 界 
假设 (Closed World Assumption ， 也 称 封闭 世界 解释 ，Closed World JInterpretation ) ， 如 果 一 个 有 
效 元 组 (符合 关系 变量 头 部 信息 的 元 组 ) 在 一 个 关系 变量 的 主体 没有 出 现 ， 则 我 们 可 以 假设 相 
应 的 命题 是 错误 的 。 也 就 是 说 ， 在 任何 时 候 ， 关 系 变量 的 主体 中 包含 所 有 上 且 仅仅 当前 和 正确 命题 
相关 的 元 组 。 在 第 9 章 中 会 进一步 介绍 这 些 问 题 。 


6.6 SQL 的 支持 


+. 行 

SQL 并 不 支持 元 组 上 的 操作 ; 相反 ， 它 支持 行 〈 其 中 所 有 的 组 成 元 素 根据 从 左 到 右 的 次 序 
分 别 排列 ) 上 的 操作 。 在 一 个 给 定 的 行 中 ， 如 果 该 行 直接 位 于 一 个 表 中 ,， 则 其 组 成 元 索 的 值 称 
为 列 值 ， 或 者 字段 值 。 这 些 组 成 元 素 的 值 都 是 通过 序号 来 识别 的 ， 尽 管 它们 一 般 都 具有 名 字 
( 当然 ， 这 只 是 大 多 数 情况 下 )。 行 类 型 没有 显 式 的 行 类 型 名 称 。 通 过 下 列 所 示 的 < row value 
constructor > 表达 式 ， 我 们 可 以 “选择 ”( 相应 地 会 构造 一 个 SQL 项 ) 一 个 行 上 的 值 : 


{ ROW ] ( <exp commalist> ) 


如 果 commalist 中 仅仅 包含 一 个 < emp > 表达 式 ， 则 表达 式 中 的 括号 可 以 省 略 ; 同时 ， 关 键 字 
ROW 也 必须 省 略 ， 或 者 把 它 作 为 可 选项 。 而 且 ，commalist 表达 式 不 能 为 空 《SQL 不 支持 “0 
行 " ) 。 下 面 是 一 个 例子 : 


ROW ( P#('P2:), P#('P4'), QTY(7) ) 


这 个 表达 式 表示 了 一 个 度 为 3 的 行 。 

就 像 我 们 在 第 5 章 所 看 到 的 ，SQL 也 支持 行 的 类 型 构造 器 (这 点 和 Tutorial D 中 的 元 组 类 型 
生成 器 不 同 ) 。 这 样 的 类 型 构造 器 可 以 在 定义 其 他 类 型 ( 比如 表 中 的 列 ， 或 者 一 些 变量 ) 时 调 
用 。? 下 面 是 一 个 定义 变量 的 例子 : 





当然， 这 并 不 是 说 我 们 不 能 够 更 新 元 组 变量 ， 就 像 在 6. 2 节 中 所 解释 的 那样 。 然 而 ， 元 组 变量 部 分 并 不 包含 在 关系 
模型 中 ， 因 此 在 关系 数据 库 中 也 不 包含 这 种 类 型 的 元 组 变量 。 

全 ”有 -- 点 不 要 搞 混 了 : 如 果 我 们 很 宽泛 地 说 的 话 ，SQL 中 的 “ 行 值 构 造 器 ” (row value constmuctor) 基本 上 是 一 个 
元 组 选择 子 ， 而 一 个 “ 行 类 型 构造 器 ”( row type constructor) 则 基本 上 是 一 个 元 组 类 型 生成 子 。 
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DECLARE ADDR ROW ( STREET CHRAR(50)， 


ZIP CHAR(S5)') ; 


同时 ， 行 上 的 赋值 和 比较 通常 在 SQL 中 也 是 支持 的 ， 警 告 : 只 有 强 类 型 受到 限制 ( 见 5.7 
节 )。 因 此 ， 要 特别 注意 下 面 这 种 情况 : r1 = 7 双 为 真 并 不 表示 行 ri 和 2 是 相同 的 一 行 。 而 且 ， 
“<” 和 “>” 也 是 合法 的 行 操作 符 。 这 里 ， 我 们 并 不 打算 涉及 太 多 关于 这 类 比较 的 细节 问题 ， 
有 兴趣 的 读者 可 以 参考 文献 [4. 20] 。 

SQL 并 不 支持 行 层次 上 的 常规 的 关系 操作 符 ( 比如 行 上 的 投影 、 行 的 连接 等 )， 也 不 直接 对 
应 地 支持 包 和 解 包 。 另 外 ，SQL 也 不 支持 任何 “ 行 类 型 的 引用 ”， 不 过 在 SQL 几乎 不 支持 任何 
行 操作 符 的 前 提 下 ， 这 也 不 是 那么 重要 了 。 

2. 表 类 型 

如 上 所 述 ，SQL 不 支持 关系 ， 但 是 ， 它 支持 表 结 构 。 在 SQL 中 的 一 个 表 并 不 是 一 个 包含 元 
组 的 集合 ， 而 是 包含 行 的 包 〈 包 也 称 为 多 集 ，multiset， 它 和 集合 很 类 似 ， 其 中 的 元 素 也 是 没有 
顺序 的 ， 但 是 和 集合 的 不 同 之 处 在 于 包 人 允许 存在 重复 ) 。 因 此 ， 这 样 的 表 中 的 列 具 有 从 左 到 右 
的 顺序 ， 而 且 可 以 有 重复 的 行 。( 在 本 书 中 ， 我 们 会 通过 一 些 特 定 的 规则 来 保证 表 中 不 会 出 
现 重复 的 行 ， 即 使 是 在 讲述 SQL 的 部 分 。) SQL 也 不 使 用 表 头 〈heading) 或 者 主体 
(body) 的 概念 。 

表 类 型 没有 显 式 的 表 类 型 名 。 通 过 下 列 所 示 的 < table value constructor > 表达 式 ， 我 们 可 以 
“选择 ”( 注意 ， 在 SQL 中 是 “构造 ”) 一 个 表 : 


VALUES <row value constructor commalist> 


(这 里 ，commalist 不 能 为 空 )。 因 此 ， 举 个 例子 来 说 ， 表 达 式 
VALUES ( P#{'Pl')}, P#('P2'), QTY(S} 
( P#('Pl'), P#('P3'), 
{ P#('P2'), P#('P3'), 
{ P#('P2'), P#('PA'), QTY(T) 
( 里 罗 和 "), 
'), 


~— 
~ 


( P#('P4'), P#('P6 


给 出 了 一 个 表 的 定义 ， 这 个 定义 和 6.3 节 中 提 到 的 关系 很 类 似 ， 区 别 在 于 这 个 表 中 没有 显 式 的 
列 名 。 

在 以 前 的 内 容 中 ,我 们 已 经 提 到 了 RELATION 类 型 生成 器，SQL 中 没有 与 之 相对 应 的 概念 。 
SQL 也 不 支持 显 式 的 表 赋值 操作 符 (尽管 SQL 明确 支持 INSERT，DELETE 和 UPDATE 语句 ) 。 
而 且 ，SQL 也 不 支持 任何 表 比 较 的 操作 符 ， 包 括 “ =”。 不 过 ，SQL 支持 一 个 操作 符 ， 用 于 判断 
一 个 给 定 的 行 是 否 存在 于 一 个 给 定 的 表 中 : 


<row value constructor> IN <table exp> 


SQL 也 支持 和 TUPLE FROM 操作 符 相 对 应 的 操作 符 : 


( <table exp> ) 


在 这 样 的 一 个 表达 式 中 至 少 需 要 有 一 个 行 ， 同时， 如 果 < table exp > 表示 了 一 个 恰好 包含 一 个 行 
的 表格 ， 则 返回 该 行 ， 否则 会 抛 出 一 个 异常 。 注 意 : < table name > 并 不 是 一 个 有 效 的 < table 
exp >1! 

3. 表 的 值 和 变量 

SQL 在 表 值 和 表 变 量 中 都 使 用 了 相同 的 术语 一 一 表 ， 这 往往 容易 引起 一 些 混淆 。 在 本 节 中 ， 
必须 根据 上 下 文 来 理解 表 这 个 术语 到 底 指 的 是 变量 还 是 值 。 首 先 我 们 给 出 SQL 定义 一 个 基本 表 
的 语法 : 


CREATE TABLE <base table name> 
{ <base table element commalist> ) ; 
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其 中 每 个 < base table element > 或 者 是 一 个 < column definition > ,或 者 是 一 个 < constraint > ;9 
sm < constraint > 表达 式 指定 了 应 用 在 基本 表 上 的 完整 性 约束 。 我 们 会 在 第 9 章 详细 解释 完整 
性 约束 。 不 过 这 里 要 指出 一 点 、 因 为 表 中 允许 有 重复 的 行 ， 因 此 在 SQL 表 中 并 不 一 定 要 
求 一 个 主 码 (或 者 说 ， 就 是 不 一 定 要 求 有 候选 码 ) 。 
@ < column definition > 表达 式 一 一 在 语法 中 要 求 至 少 必须 有 一 个 这 样 的 表达 式 
下 列 通常 形式 : 


<column name> <type name> [ <default spec> ]} 


可 选 的 < default spec > 指定 了 默认 值 ， 也 就 是 说 ， 如 果 用 户 在 INSERT 的 时 候 没 有 显 式 地 提供 相 
应 的 值 ， 则 自动 将 默认 值 放置 到 合理 的 列 上 ( 见 4.6.1 节 )。< default spec> 的 形式 为 DEFAULT 
< default > ， 其 中 < default > 是 一 个 字面 量 (也 可 以 称 作 一 个 niladic 内 建 操作 符 名 字 9? ) ， 或 者 
是 一 个 NULL 关键 字 〈 兄 第 19 章 ) 。 如 果 一 个 给 定 的 列 没有 显 式 的 默认 值 ， 则 可 以 自动 假设 其 
默认 值 为 空 值 一 一 也 就 是 说 ， 空 值 是 “默认 的 默认 值 ”( 事 实 上 ，SQL 中 一 直 是 这 样 做 的 ) 。 注 
意 : 如 果 一 个 列 的 类 型 是 用 户 自 定义 〈 我 们 已 经 在 第 4 章 中 提 到 过 ) 的 话 ， 该 列 的 默认 值 必须 
为 空 值 ， 当 然 ， 这 已 经 超出 了 本 书 的 范围 了 。 另 外 ， 如 果 一 个 列 的 类 型 为 行 类 型 的 话 ， 则 其 默认 
值 必须 为 空 值 ; 当 该 列 是 一 个 数组 类 型 的 时 候 ， 其 默认 值 也 必须 为 空 值 或 者 为 零 。 

我 们 可 以 在 第 4 章 的 图 4-1 中 看 到 一 些 创建 表 的 例子 。 注 意 ，SQL 不 支持 表 值 列 ， 也 不 支持 
完全 不 包含 列 的 表 。 当 然 SQL 支持 ORDER BY 操作 ， 这 一 点 和 关系 代数 上 的 大 多 数 操作 符 比 较 
类 似 〈 见 第 7、8 章 ) 。 然 而 ，SQL 对 于 “ 表 类 型 引用 ”还 是 部 分 隐 含 的 ， 尽 管 它们 并 不 一 定 要 
存在 。 不 过 ， 在 这 里 我 们 不 打算 做 更 多 的 解释 。 

一 个 已 存在 的 表 也 可 以 被 删除 ， 其 语法 如 下 所 示 ， 


DROP TABLE <base table name> <behavior> ; 


其 中 ，< behavior > 不 是 RESTRICT 就 是 CASCADE， 这 和 第 5 章 中 的 DROP TYPE 是 一 样 的。 不 
严格 地 说 ，RESTRICT 表示 如 果 有 任何 一 个 地 方 在 使 用 当前 表 ， 则 删除 该 表 的 操作 就 会 失败 ， 而 
CASCADE 说 明 删 除 的 动作 总 能 够 成 功 ， 对 于 正在 使 用 该 表 的 事务 ， 也 会 隐 式 地 为 之 调用 DROP 
…CASCADE。 

通过 ALTER TABLE， 我 们 也 可 以 改变 一 个 已 经 存在 的 基本 表 。SQL 支持 下 列 “改变 ”: 

a 增加 一 个 新 的 列 。 

sa 对 一 个 已 经 存在 的 列 指定 一 个 新 的 默认 值 (如 果 原 先 已 经 存在 默认 值 ， 则 取代 原先 

的 值 ) 。 

s 删除 一 个 列 的 默认 值 。 

s 删除 一 个 已 经 存在 的 列 。 

指定 一 个 新 的 完整 性 约束 。 

a 删除 一 个 已 经 存在 的 完整 性 约束 。 

对 于 上 述 的 第 一 种 情况 ， 我 们 给 出 一 个 例子 : 


ALTER TABLE S ADD COLUMN DISCOUNT INTEGER DEFAULT -1 ; 


这 个 语句 在 供应 商 的 基本 表 中 增加 了 一 个 新 的 DISCOUNT 列 (其 类 型 为 INTEGER ) 。 表 中 所 有 
的 行 都 从 4 列 扩展 成 5 列 ; 同时 第 5 列 的 初始 值 都 置 为 -1。 

最 后 ，SQL 的 INSERT、DELETE 和 UPDATE 语句 在 第 4 章 中 我 们 已 经 讨论 过 了 。 

4. 结构 类 型 

提示 : SQL 标准 中 和 本 小 节 相 关 的 部 分 非常 难以 理解 ， 这 里 ， 本 书 已 经 尽 了 最 大 的 努力 试 





必须 具有 





GO 一 个 <base table element > 也 可 以 采取 LIKE 了 的 形式 ， 它 允许 从 另外 一 些 已 经 存在 的 并 且 名 字 为 了 的 表 中 复制 部 分 
或 者 全 部 列 定义 。 
”一 个 niladic 操作 符 指 的 是 没有 显 式 的 操作 数 的 操作 符 。 比 如 CURRENT_DATE 就 是 一 个 niladic 操作 符 。 
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图 说 得 更 加 清楚 一 些 。 
首先 ， 和 5.7 节 一 样 ， 我 们 先 给 出 一 个 结构 类 型 定义 的 例子 : 


CREATE TYPE POINT AS ( X FLORT，Y FLOAT ) NOT FINAL ; 


在 变量 和 列 定义 中 ， 同 样 也 可 以 使 用 上 述 的 POINT 类 型 。 比 如 : 


CREATE TABLE NADDR 
( NAME ... , 
RDDR ... ， 
LOCATION POINT ... ， 
) 


现在 ,虽然 不 会 像 在 第 5 章 里 那样 说 的 那么 明确 ， 这 里 还 是 要 特别 指出 SQL 的 结构 类 型 是 
标量 类 型 。 这 一 点 和 我 们 之 前 所 述 的 Tutorial D 中 的 POINT 类 型 很 类 似 ， 都 是 标量 类 型 。 从 某 
些 意义 上 来 说 ， 它 们 更 类 似 于 Tutorial D 中 的 元 组 类 型 。 当然 ， 像 访问 元 组 中 的 属性 一 样 ， 我 
们 也 可 以 访问 一 个 给 定 的 POINT 值 的 组 件 (“属性 ”) 。 点 限定 语法 可 以 用 于 实现 上 述 目 标 ， 我 
们 可 以 参考 下 面 所 给 出 的 例子 〈 注 意 到 其 中 必须 显 式 给 出 名 字 的 相关 性 ) : 


SELECT NT.LOCATION.X, NT.LOCATION,.Y 
FROM NADDR AS NT 
WHERE NAME = .. 


UPDATE NADDR AS NT 

SET NT.LOCATION.X = 5.0 

WHERE NAME = ...: 

就 像 在 之 前 的 例子 中 所 用 的 那样 ，SQL 结构 类 型 可 以 像 简 单 的 行 类 型 一 样 有 效 地 起 作用 
( 见 5.7 节 )， 除非 : 

a 其 组 件 被 称 为 属性 ， 而 不 是 字段 。 

a 更 重要 的 ， 和 行 类 型 不 同 的 是 ， 结 构 类 型 有 名 字 (在 这 一 节 的 最 后 我 们 会 再 解释 这 一 点 ) 。 

迄今 为 止 ，SQL 的 结构 类 型 看 起 来 并 不 是 特别 难 理解 。 但 是 ， 接 下 来 的 可 能 会 困难 很 多 。” 
在 前 面 所 述 的 基础 之 上 ，SQL 也 允许 将 一 个 基本 表 定 义 成 一 些 结构 类 型 ， 其 中 ， 就 会 需要 考虑 
更 多 。 我 们 先 将 POINT 类 型 的 定义 进行 扩展 : 


CREATE TYPE POINT AS ( X FLOAT, Y FLOAT ) NOT FINAL 
REF 1S SYSTEM GENERATED ; 


现在 我 们 就 可 以 将 一 个 基本 表 定义 成 这 个 类 型 ， 比 如 : 


CREATE TABLE POINTS OF POINT 
( REF IS POINT# SYSTEM GENERATED ... ); 


解释 : 

1) 当 我 们 定义 了 一 个 结构 类 型 T， 系 统 就 会 自动 定义 一 个 相关 的 引用 类 型 (“REF 类 型 " ) ， 
称 作 REF( 7T) 。 类 型 REF(7T) 的 值 是 在 一 些 基 本 表 % 一 一 已 经 被 定义 为 类 型 了 ( 见 第 3 点 ) 一 一 
中 对 行 的 “引用 ”。 在 这 个 例子 中 ， 系 统 自动 定义 了 一 个 类 型 REF( POINT) ， 这 个 类 型 的 值 都 是 
对 已 经 定义 为 POINT 类 型 的 基本 表 中 的 行 的 引用 。 

2) CREATE TYPE 语句 中 的 REF IS SYSTEM GENERATED 说 明 关 联 的 REF 类 型 的 实际 值 
是 由 系统 提供 的 〈 当然 还 有 其 他 方式 一 一 比如 ，REF IS USER GENERATED ， 不 过 这 里 不 讨论 这 
此 细节 问题 )。 注 意 一 点 ， 事 实 上 ，REF IS SYSTEM GENERATED 是 默认 的 方式 ; 因此 ， 在 本 例 
中 ， 如 果 需 要 的 话 ， 我 们 可 以 不 改变 最 初 定义 的 POINT 类 型 。 

3) 基本 表 POINTS 已 经 定义 成 结构 类 型 POINT 的 实例 。 这 里 ， 关 键 词 “OF” 事 实 上 并 不 是 太 





G@G， 唯一 的 区 别 是 结构 类 型 的 属性 具有 从 左 到 右 的 顺序 ， 而 元 组 类 型 中 则 没有 。 
@ 详细 可 见 第 20 章 和 第 26 章 中 的 讨论 。 
@@ ”也 可 能 是 -- 些 视图 。 当 然 ， 在 视图 基础 之 上 的 细节 已 经 超出 了 本 书 的 范围 。 
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合适 ， 然 而， 因为 在 这 个 问题 中 这 个 表 并 不 是 真正 属于 这 个 类 型 ， 它 的 行 也 不 属于 这 个 类 型 1° 
首先， 如 果 一 个 表 中 只 包含 一 列 ， 而 且 这 个 列 属于 结构 类 型 ST， 这 样 我 们 就 可 以 说 一 一 
尽管 不 是 在 SQL 中 |! 这 个 表 的 类 型 是 TABLE( ST) ， 其 中 的 行 的 类 型 是 ROW(37) 。 
= 但 是 ， 通常 一 个 表 中 不 会 恰好 只 含有 一 列 ; 更 可 能 的 情况 是 对 于 57 的 每 个 属性 都 有 一 列 。 
这 样 ， 在 刚才 的 例子 中 ， 基 本 表 POINTS 含有 两 列 X 和 Yi; 而 没有 类 型 POINT 的 列 。 
而 且 ， 我 们 的 例子 所 用 的 表 中 还 有 一 个 额外 的 列 : 也 就 是 一 个 可 用 的 REF 类 型 。 然 而 ， 
定义 此 列 所 用 的 语法 和 通常 定义 列 的 语法 不 太 -- 样 ， 具 体 如 下 所 示 : 


REF IS <column name> SYSTEM GENERATED 


这 个 额外 的 列 叫做 自 引用 列 (self- referencing column ) ， 对 于 我 们 所 述 问题 中 的 基本 表 中 
的 行 ， 用 于 保存 一 些 独一无二 的 ID 或 者 “引用 ”。 当 插入 人 一 个 行 时 会 自动 给 它 分 配 一 个 
ID， 并 且 在 这 行 被 删除 之 前 ， 相 应 的 ID 和 该 行 是 相关 联 的 。 比 如 ， 事 实 上 基本 表 
POINTS 中 包含 有 三 个 列 (POINT#、X 和 YY) ， 而 不 是 仅仅 两 个 。 注 意 : 事实 上 ， 我 们 并 
没有 说 清楚 为 什么 一 开始 必须 将 表 定 义 成 一 些 结构 类 型 ， 而 不 是 直接 定义 一 个 合适 的 列 用 
于 获取 这 个 “独一无二 的 ID” 的 功能 。 但 是 ， 我 们 给 出 的 解释 与 SQL 定义 的 方式 一 致 。 

在 另 一 方面 ， 我 们 必须 指出 一 个 系统 产生 (SYSTEM GENERATED) 的 列 可 以 是 一 个 IN- 
SERT 或 者 UPDATE 操作 的 目标 列 ， 虽 然 这 里 需要 特殊 的 考虑 。 这 里 我 们 省 略 了 相关 的 细节 。 

4) 表 POINTS 是 通过 标准 调用 产生 的 表 的 示例 ， 虽 然 不 是 很 合适 ， 但 它 同时 是 一 个 具有 交 
型 的 表 (typed table) ， 也 是 一 个 可 引用 的 表 (referenceable table) 。 就 像 标 准 中 所 说 的 : 个 表 
… 其 行 类 型 是 从 结构 化 类 型 派生 的 ， 则 称 之 为 具有 类 型 的 表 。 只有 基本 表 或 视图 可 以 是 有 类 型 的 
表 ”" ， 以 及 “可 引用 的 表 也 需 是 具有 类 型 的 表 …… 具 有 类 型 的 表 也 称 为 可 和 参照 的 表 ”。 

前 面 所 述 的 特征 都 是 在 SQL: 1999 中 引入 的 ， 并 且 主 要 用 于 与 SQL 中 的 一 些 “ 对 象 功 能 性 ” 
协作 (在 第 26 章 我 们 会 更 细 地 介绍 这 些 功能 性 ) 。” 不过， 标准 并 没有 限定 说 这 些 特征 只 能 用 于 
和 这 些 特 定 功能 性 相关 的 情况 ， 而 这 也 恰恰 是 我 们 在 本 章 中 描述 的 。 

最 后 一 点 : 回想 第 5 章 中 说 明了 Tutoriai D 中 并 没有 显 式 的 “元 组 类 型 定义 ”的 操作 符 ; 而 
是 通过 在 元 组 变量 的 定义 中 调用 元 组 类 型 生成 器 来 实现 所 需要 的 目标 。 因 此 ， 在 Tutorial D 中 ， 
唯一 的 名 字 元 组 类 型 (names tuple types) 的 形式 如 下 : 

TUPLE { Al TI, A2 T2, ..., An Tn } 

在 这 个 基础 之 上 ， 可 以 很 清楚 地 判断 两 个 元 组 类 型 是 否 相 同 ， 以 及 两 个 元 组 是 否 具有 相同 的 类 型 。 

我 们 可 以 看 到 ，SQL 中 的 行 类 型 和 Tutorial D 中 的 元 组 类 型 在 之 前 的 叙述 中 是 很 相似 的 。 但 


是 结构 类 型 是 不 一 样 的 ; 它 有 一 个 显 式 的 “结构 类 型 定义 ”操作 符 ， 另 外 ， 结 构 类 型 有 显 式 的 
名 字 。 作 为 一 个 例子 ， 可 以 考虑 下 列 所 示 的 SQL 定义 : 


CREATE TYPE POINT1 AS ( X FLOAT，Y FLOAT ) NOT FINAL ; 











CREATE TYPE POINT2 AS ( X FLOAT, Y FLOAT ) NOT FINAL ; 
DECLARE V1 POINT1 ，; 
DECLARE V2 POINT2 ; 


这 里 要 注意 到 V1 和 V2 是 不 同 的 类 型 。 因 此 它们 不 能 够 互相 比较 ， 也 不 能 互相 赋值 。 
6.7 小 结 
在 本 章 ， 我们 全 面 地 学 习 了 关系 和 相关 的 内 容 。 首 先 ， 精 确 地 定义 了 元 组 的 概念 ， 并 且 强 调 





GG 特别 要 注意 -~ 点 ， 对 于 一 些 操作 符 Op 而 育 ， 如 果 一 些 参 数 P 的 已 声明 的 类 型 是 一 些 结构 类 型 ST， 那么 对 于 基本 表 
中 -个 已 经 被 定义 为 “5T” 类 型 的 行 ， 并 不 能 够 直接 看 作 和 操作 符 Op 的 一 个 调用 所 相关 的 参数 。 

信 ”事实 上 FF，SQL 结构 类 型 总 是 有 一 个 相关 联 的 REF 类 型 ， 即 使 这 个 REF 类 型 没有 太 大 的 作用 ， 除 了 当 该 结构 类 型 
被 用 作 定 义 “ 具 有 类 型 的 表 ” 的 基础 的 时 候 。 
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了 下 列 几 点 : (a) 对 于 每 个 元 组 ， 其 中 的 每 个 属性 只 能 够 含有 一 个 值 ，(b) 元 组 中 的 属性 没有 
从 左 到 右 的 顺序 ，(c) 元 组 的 每 个 子 集 同样 是 一 个 元 组 ， 而 且 每 个 表 头 信息 的 子 集 也 是 表 头 信 
息 。 然 后 ， 我 们 讨论 了 元 组 类 型 生成 器 、 元 组 选择 子 、 元 组 矣 值 和 相等 性 等 ， 以 及 其 他 通常 的 元 
组 操作 符 。 

接 下 来 介绍 了 关系 (更 确切 地 说 就 是 关系 值 ) 。 我 们 给 出 了 一 个 准确 的 定义 ， 并 且 指 出 了 一 
个 主体 (body) 的 子 集 还 是 主体 ， 一 个 表 头 信息 的 子 集 还 是 表 头 信息 (这 点 和 元 组 的 定义 一 
样 ) 。 我 们 也 讨论 了 关系 类 型 生成 器 和 关系 选择 子 。 同 时 ， 我 们 也 观察 到 一 个 给 定 的 关系 类 型 的 
属性 可 以 是 任何 类 型 的 。 

注意 : 鉴于 最 后 一 点 在 业界 引起 了 太 多 的 混交 之 处 ， 我 们 需要 多 花费 一 点 笔墨 来 解释 。 我 们 
可 能 经 常 听 到 有 些 说 法 ， 如 关系 属性 只 能 是 一 些 简 单 的 类 型 ， 比 如 数字 、 字 符 串 ， 等 等 。 事 实 
土 ， 在 关系 模型 中 根本 没有 对 这 些 说 法 的 支持 。 就 像 第 5 章 所 说 的 ， 事实 上 类 型 可 以 非常 简单 ， 
也 可 以 非常 复杂 。 因 此 ， 属 性 对 应 的 值 可 以 为 数字 、 字 符 串 、 日 期 、 音 频 记 录 、 地 图 、 视 频 记 录 
以 及 几何 点 ， 等 等 。 

上 述 这 一 点 非常 重要 ， 同 时 它 也 常常 被 人 们 误解 。 我 们 再 次 用 下 列 说 法 来 表述 ， 

支持 什么 样 的 数据 类 型 与 是 否 支持 关系 模型 是 无 关 的 。 

继续 回 到 我 们 的 小 结 中 。 我 们 接着 给 出 了 一 些 所 有 关系 都 满足 的 性 质 : 

1) 它们 都 是 规范 化 的 。 

2) 其 中 的 属性 没有 从 左 到 右 的 顺序 。 

3) 其 中 的 元 组 没有 从 上 到 下 的 顺序 。 

4) 其 中 不 可 能 有 重复 的 元 组 。 

我 们 也 明确 了 关系 和 表 之 间 的 一 些 主要 区 别 : 讨论 了 关系 - 值 属性 (relation-valued attribute ) ; 
考虑 了 TABLE_DEE 和 TABLE_DUM， 这 两 者 是 仅 有 的 不 包含 任何 属性 的 关系 。 我 们 描述 了 关系 
比较 的 一 些 细节 问题 ， 同 时 也 浏览 了 一 遍 其 他 的 一 些 关系 操作 符 ， 特 别 是 ORDER BY 。 

在 考虑 关系 上 的 操作 符 时 ， 读 者 可 能 会 注意 到 第 5 章 中 深入 讨论 了 关于 标量 类 型 上 的 用 户 自 
定义 的 操作 符 。 但 是 ， 对 于 关系 类 型 来 说 不 能 做 类 似 的 自 定义 操作 。 原 因 是 我 们 所 需要 的 大 多 数 
关系 操作 符 比如 选择 、 投 影 、 连 接 、 关 系 比较 ， 等 等 一 一 都 是 内 建 在 关系 模型 之 中 的 ， 不 需 
要 任何 的 “用 户 自 定义 ”。( 而 且 ， 那 些 操 作 都 是 通用 的 ， 也 就 是 说 ， 它 们 可 以 应 用 于 所 有 类 型 
的 关系 。) 当然 ， 从 另 一 个 角度 来 说 ， 如 果 系 统 提 供 了 用 于 定义 用 户 自 定义 操作 符 的 工具 ， 我 们 
也 完全 可 以 在 基本 的 内 置 的 操作 符 之 上 增加 一 些 新 的 操作 符 。 

我 们 还 要 提醒 一 点 ， 任 何 给 定 的 关系 的 表 头 信息 都 可 以 看 作 一 个 谓词 ， 而 且 关 系 的 元 组 都 可 
以 被 看 作 真 命题 ; 这 些 命题 都 是 通过 向 谓词 中 的 参数 提供 合适 类 型 的 参数 值得 到 的 。 

然后 ， 我 们 考虑 了 基本 关系 变量 ， 指 出 关系 变量 也 具有 谓词 ， 这 一 点 和 关系 很 类 似 。 根 据 封 
闭 世界 假设 我 们 能 够 假设 ， 如 果 一 个 有 效 元 组 在 关系 变量 的 主体 中 没有 出 现 ， 则 其 相应 的 命题 也 
是 错误 的 。 

我 们 还 讨论 了 关系 赋值 (以 及 INSERT、DELETE 和 UPDATE 等 快捷 操作 )。 我 们 强调 了 
一 点 ， 关系 赋值 是 在 集合 层次 上 的 操作 ; 我 们 也 说 明了 “更 新 元 组 ”和 “更 新 属性 ”的 说 法 事 
实 上 是 不 正确 的 。 

最 后 ， 对 于 前 面 所 述 的 内 容 ， 我 们 简单 介绍 了 SQL 中 的 相应 部 分 。SQL 的 表 不 是 元 组 的 集 
合 ， 而 是 一 个 行 的 包 (bag) (SQL 也 使 用 “ 表 ” 这 个 术语 来 描述 表 值 和 表 变 量 ) 。 基 本 表 可 以 
通过 ALTER TABLE 进行 改变 。 它 们 也 可 以 通过 结构 类 型 来 定义 ， 关 于 这 一 点 ， 本 书 的 第 26 章 
会 给 出 更 多 的 细节 。 


习题 


6.1 如 何 理解 术语 “基数 ”? 

6. 2 ”准确 定义 元 组 和 关系 的 概念 。 

6. 3 ”准确 描述 下 列 说 法 的 意义 (a) 两 个 元 组 相等 ; (b) 两 个 元 组 的 类 型 相同 ; (c) 两 个 关系 相等 ; 
(d) 两 个 关系 的 类 型 相同 。 
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6.4 针对 图 4.5 所 未 的 供应 商 -零件 -工程 玫 据 库 ， 写 一 组 渭 交 以 避 一 组 要 据 Tuoral 的 全 
义 。 
6.5 为 供应 商 -零件 -工程 数据 库 的 每 个 关系 变量 的 一 个 典型 的 元 组 写 一 个 元 组 选择 子 调用 。 
6.6 定义 一 个 本 地 元 组 变量 ， 通 过 这 变量， 可 以 从 供应 商 -零件 工程 歼 拓 和 的 生生 和 
元 组 。 
6.7 ”描述 下 列表 达 式 的 意义 〈 根 据 Tutorial D 的 定义 ) : 
a、RELRTION { S# S#, P#¥ P#¥, J# J#, QTY QTY } { } 
b. RELATION { TUPLE { S# S#('S1'), P# P#(°'Pl’'), 
J# J#('J1'), QTY QTY(200) } } 
C. RELATION { TUPLE { } } 
d. RELATION { } { TUPLE { } } 
€. RELATION { } { } 


6.8 ”如 何 理 解 第 一 范式 ? 

6.9 尽 可 能 地 列 出 所 有 你 能 够 想到 的 关系 和 表 之 间 的 区 别 。 

6.10 ”根据 下 列 条 件 定义 一 个 关系 : (a) 有 一 个 “关系 - 值 ”属性 ，(b) 包含 两 个 这 样 的 属性 。 给 出 两 个 
或 者 更 多 的 关系 ， 用 于 表示 相同 的 意义 ， 并 且 其 中 不 包含 “关系 - 值 ” 属 性 。 

6.11 ， 写 一 个 表达 式 ， 使 得 零件 关系 变量 P 中 的 当前 值 为 空 时 返回 TRUE， 反 之 则 返回 FALSE。 表 达 式 中 
不 用 IS_EMPTY。 

6.12 从 哪些 方面 来 说 ORDER BY 不 是 一 个 普通 的 操作 符 ? 

6.13 描述 “封闭 世界 假设 ”。 

6. 14 ”一 些 说 法 认为 ， 关 系 变量 和 传统 的 计算 机 文件 相 比 没有 什么 区 别 ， 而 元 组 只 不 过 相当 于 记录 ,属性 
财 相当 于 字段 (field) 。 请 对 此 给 出 你 的 意见 。 

6.15 ”根据 Tatorial D 中 的 模式 描述 下 列 对 供应 商 -零件 - 工程 数据 库 的 更 新 : 
a. 插入 一 个 新 的 发 货 记录 ， 其 中 供应 商号 为 S1， 零 件 号 为 Pl1， 工 程 号 为 及 ， 数 量 为 500。 
b. 在 表 S 中 插入 一 个 新 的 供应 商 S10 (供应 商 的 名 字 为 Smith， 城 市 为 New York; 状态 未 知 ) 。 
c. 删除 所 有 蓝 色 的 零件 。 
d 删除 所 有 没有 发 货 信 息 的 工程 。 
e. 把 所 有 红色 零件 的 颜色 改 成 橘 黄 色 。 
f 将 所 有 编号 为 S1 的 供应 商 蔡 换 成 59。 

6.16 我们 已 经 看 到 数据 定义 操作 更 新 了 目录 。 但 是 目录 只 是 关系 变量 的 一 个 集合 ， 就 像 数 据 库 的 其 他 部 
分 那样 ， 所 以 我 们 不 能 使 用 一 般 的 更 新 操作 符 INSERT、DELETE 和 UPDATE 正确 地 更 新 目录 ! 对 
吗 ? 试 讨论 之 。 

6.17 本 章 中 提 到 ， 通 常任 何 类 型 都 可 以 用 来 定义 关系 属性 。 但 是 这 里 的 限定 词 “ 通 常 ” 是 有 原因 的 。 你 
能 想 出 这 个 一 般 规 则 的 例外 情况 吗 ? 

6. 18 ” 谈 谈 你 对 SQL 术语 列 、 字 段 和 属性 的 理解 。 

19 考虑 6.6 节 “ 结 构 类 型 ”部 分 定义 的 SQL 类 型 POINT 和 SQL 表 POINTS。 类 型 POINT 用 笛 卡尔 坐 

标 X 和 YY 表示。 如 果 改 用 极 坐 标 R 和 6 表示 会 如 何 ? 


参考 文献 


下 列 许多 参考 文献 适用 于 关系 模型 的 各 个 方面 ， 而 不 仅仅 适用 于 关系 。 
[6.1] E.F. Codd:“A Relational Model of Data for Large Shared Data Banks,” CACM 13 ,No、. 6(june 1970 ). 
Republished inMilestones of Research—Xelected Papers I 958 - 1982 ( CACM 25th Anniversary lssue), 
CACM 26 ,No. 1 ( January 1983). See also the earlier version,” Derivability ,Redundancy ,and Consistency 
of Relations Stored in Large Data Banks,”IBM Research Report RJ599( August 19 , 1969 ) , which was 
Codd's very first publication on the relational model. 
论文 尽管 发 表 已 有 30 年 了 ， 但 仍 值得 一 读 。 当 然 ， 在 论文 第 一 次 发 表 后 ， 许 多 思想 已 经 精炼 
了 一些， 但 本 质 上 ， 这 些 改变 基本 上 是 演进 的 ， 而 不 是 革命 性 的 。 论 文中 的 一 些 思想 确实 至 今 没 
有 被 完全 探究 清楚 。 
我 们 讨论 一 下 术语 的 问题 。 在 这 篇 论文 中 ，Codd 用 术语 “时 间 变 化 关系 ”代替 了 关系 变量 。 


个 





[6.2] 


[6.3] 


[6.4] 


[6.5] 


[6.6] 
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但 时 间 变 化 关系 确实 不 是 一 个 很 好 的 术语 。 首 先 ， 关 系 是 一 些 值 ,不 是 随时 间 变 化 的 (并 没有 在 
不 同 的 时 间 有 不 同 的 值 这 样 的 概念 ) 。 其 次 ， 如 果 我 们 在 编程 语言 中 ， 例 如 DECLARE N INTE- 
GER， 我 们 并 不 说 N 是 时 间 变 化 整 型 ， 而 说 它 是 整 型 变量 。 所 以 在 本 书 中 ， 我 们 用 术语 关系 变量 
而 不 用 时 间 变 化 变量 。 不 过 ， 以 后 至 少 要 注意 这 样 的 术语 的 存在 。 

E. F. Codd. “The Relational Model for Database Management Version 2. Reading, Mass. :Addision- Wes- 
ley(1990 ) . 

Codd 在 20 世纪 80 年 代 末 期 花 了 很 多 时 间 修 正和 扩展 了 他 的 最 初 模型 (他 重 命名 为 “关系 模 
型 版 本 1” 或 RM/V1)， 这 本 书 是 修正 和 扩展 的 结果 。 书 中 描述 为 “关系 模型 版 本 2” 或 RM/V2。 
RM/V1 和 RM/V2 的 不 同 之 处 如 下 : RM/VI1 试图 描绘 出 全 部 数据 库 问题 的 一 个 特殊 方面 的 抽象 蓝 
图 (尤其 是 基本 方面 ) ， 而 RM/V2 试图 描绘 出 全 部 系统 的 抽象 蓝图 。 所 以 ，RM/V1 有 下 个 部 分 
(结构 、 完 整 性 和 操纵 ) ，RM/V2 有 18 个 部 分 ， 这 18 个 部 分 当然 不 仅 包 括 最 初 的 三 个 部 分 ， 也 包 
括 目 录 、 授 权 、 命 名 、 分 布 式 数据 库 和 数据 库 管 理 的 其 他 方面 。 为 便于 参考 ， 下 面 列 出 这 18 个 部 


分 

A 授权 B 基本 操作 符 C 目录 D DBMS 的 设计 原则 
E DBA 的 命令 F 函数 I 完整 性 工 指示 

L 语言 设计 原则 。 M 操纵 N 命名 P 保护 

Q 限定 S 结构 T 数据 类 型 V 视图 

X 分 布 式 数据 库  Z 高 级 操作 符 


本 书 所 倡导 的 思想 决 不 会 被 广泛 接受 ,但 是 文献 [6.7，6.8] 不 同 。 我 们 在 此 讨论 一 个 特殊 
的 论点 。 我 们 在 第 5 章 看 到 , 域 ( 即 类 型 ) 限制 了 比较 。 在 供应 商 和 零件 的 例子 中 ， 例 如 ， 比 较 
S. S# = SP. P# 是 无 效 的 ， 因 为 比较 数 是 不 同 的 类 型 ; 所 以 想 通过 供应 商 和 零件 号 的 匹配 来 连接 供应 
商 和 货运 表 将 失败 。 因 此 Codd 提出 关系 代数 操作 的 “ 域 检查 忽略 ” (domain check override， 
DCO) 版 本 ， 它 允许 执行 有 问题 的 操作 ， 即 使 这 个 操作 涉及 不 同类 型 值 的 比较 (假设 执行 是 基于 
表示 的 匹配 而 不 是 基于 类 型 的 匹配 ) 。 

但 这 样 存在 问题 。 全 部 的 DCO 思想 是 建立 在 混 靖 类 型 和 表示 的 基础 上 的 。 识 别 出 它们 是 什么 
域 ( 即 类 型 )， 提 供 了 我 们 需要 的 域 检查 ， 同 样 也 给 出 诸如 DCO 性 能 的 信息 。 例 如 ， 下 面 的 表达 
式 构成 了 供应 商号 和 零件 号 之 间 有 效 的 表示 级 的 比较 : 


THE S# ( S# ) = THE P# ( P# ) 


(这 里 的 操作 数 都 是 字符 类 型 的 ) 。 我 们 指出 ,第 5 章 讨 论 的 这 种 机 制 给 了 我 们 需要 的 全 部 的 支持 
工具 ， 是 单纯 的 、 系 统 的 做 法 (不 是 特定 的 ) ， 是 全 部 正 交 的 。 尤 其 是 ， 不 需要 构造 新 的 “DCO 
连接 ”使 关系 模型 陷入 混乱 。 

Hugh Darwen:“ The Duplicity of Duplicate Rows,” in C. J. Date and Hugh Darwen, Relational Database 
Writings 1989 ~ 1991. Reading ,Mass. :Addison- Wesley(2001 ) . 

这 篇 论文 更 进一步 支持 以 前 在 【6.6] (第 1 版 ) 中 提 到 的 禁止 重复 行 的 论点 。 论 文 不 仅 提 出 
了 -~- 些 相同 论点 的 最 新 版 本 ， 而 且 提 出 了 一 些 其 他 观点 。 尤 其 强调 的 基本 点 是 ， 为 了 用 更 聪明 的 
方式 讨论 两 个 对 象 是 否 重复 的 问题 ， 必 须 有 一 个 清晰 的 相等 的 标准 (论文 中 称 为 识别 标准 ) 。 也 就 
是 说 ， 两 个 对 象 ， 是 表 中 的 行 或 是 其 他 别 的 什么 ， 它 们 “相同 ”意味 着 什么 ? 

Hugh Darwen:“Relation- Valued Attributes,” in C. J. Date and Hugh Darwen, Relational Database Writ- 
ings 1989 -~ 1991. Reading ,Mass. :Addison- Wesley( 1992). 

Hugh Darwen: “The Nullologist in Relationland,” in C.J. Date and Hugh Darwen, Relational Database 
Writings 1989 -~ 1991. Reading ,Mass. :Addison- Wesley(1992 ) . 

Darwen 用 空 科学 表示 “什么 都 不 学 ” ， 换 名 话说， 学 的 是 空 集 (这 与 SQL 中 的 null 无 任何 关 

系 。) 。 集 合 在 关系 理论 中 是 普遍 存在 的 ， 如 果 这 个 集合 恰好 为 空 会 产生 什么 问题 ， 这 远 不 只 是 一 
个 琐碎 的 问题 。 事 实 表明 ， 空 集 常常 是 很 基本 的 情况 。 注 意 : 就 本 章 而 言 ， 这 篇 论文 最 直接 可 用 
的 部 分 是 第 2 部 分 (无 行 表 ) 和 第 3 部 分 〈 无 列表 ) 。 
C.J. Date: “Double Trouble，Double Trouble,”( in two parts), htip: //www. dbdebunk. com ( April 
2002). An earlier version of this paper,“Why Duplicate Rows Are Prohibited,” appeared in Relational 
Database Writings 1985 - 1989. Reading, Mass. :Addison- Wesley( 1990 ) . 

提出 了 扩展 的 一 系列 论点 例如， 禁止 重复 行 。 论 文 特别 提出 重复 行 构 成 了 主要 的 优化 障碍 
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[6.7] 


[6.8] 


[6.9] 


[6. 10] 


萝 二 部 分 关系 磅 型 


( 见 第 18 章 ) 。 另 参见 [6.3]。 

C.J. Date. “Notes Toward a Reconstituted Definition of the Relational Model Version 1 (RM/Vi),”"in 

C. I. Date and Hugh Darwen, Relational Database Writings 1989 ~ 1991. Reading ,Mass. :Addison- Wesley 

(1992). 

总 结 和 批评 了 Codd 的 RM/AV1 ( 见 文献 [6.2] 的 注解 )， 提 出 了 另 一 定义 。 在 想 转 到 版 本 2 

之 前 先 看 看 版 本 1 是 至 关 重 要 的 。 注 意 : 当前 书 中 描述 的 关系 模型 版 本 是 基于 本 论文 概述 的 “ 重 

构 ” 版 本 。 更 多 细节 描述 见 [3.3]。 

C.J. Date. “A Critical Review of the Relational Model Version 2( RM/V2)," in C.J. Date and Hugh 

Darwen , Relational Database Writings 1989 - 1991. Reading, Mass. : Addison- Wesley( 1992). 

总 结 和 批评 了 Codd 的 RM/V2。 

C. J. Date: The Database Relational Model:A Retrospective Review and Analysis. Reading ,Mass. : Addi- 

son- Wesley ( 2001 ). 

这 本 篇 幅 短小 的 书 (160 页 ) ， 详 细 而 客观 地 回顾 和 评价 了 Codd 在 20 世纪 70 年 代 发 表 的 文 

章 的 贡献 。 尤 其 是 ， 它 详细 地 审视 了 下 列 论文 : 

wm “Derivability, Redundancy ,and Consistency of Relations Stored in Large Data Banks”( the first version 

of referencef 6.1]) 

“A Relational Model of Data for Large Shared Data Banks” [6.1] 

“Relational Completeness of Data Base Sublanguages” [7.1] 

“A Data Base Sublanguage Founded on the Relational Calculus” [8.1] 

“Further Normalization of the Data Base Relational Model” [11.6] 

“Extending the Relational Database Model to Capture More Meaning” [14.7] 

“Interactive Support for Nonprogrammers : The Relational and Network Approaches" [26. 12] 

Mark A. Roth, Henry F. Korth, and Abraham Silberschatz:“ Extended Algebra and Calculus for Nested 

Relational Databases,” ACM TODS 13 ,No. 4( December 1988 ) . 

多 年 来 ， 许 多 人 提出 了 支持 关系 赋值 属性 的 可 能 性 ; 这 篇 论文 是 其 中 之 一 。 这 样 的 提议 通常 

由 “NEF? 关 系 ” 而 来 ， NE 是 NFNF 的 缩写 ， 代 表 “ 非 第 一 范式 ”。 但 是 ， 这 些 提 议和 本 章 描 述 的 

支持 关系 赋值 属性 至 少 有 两 个 主要 的 区 别 ， 

ma 第 一 ，NF2 关 系 提倡 者 假设 在 关系 模型 中 禁止 关系 赋值 属性 ， 宣 称 他 们 的 提议 是 关系 模型 的 扩 
展 (注意 [6. 10] 的 标题 ) 。 

m@ 第 二 ，NF2 提 倡 者 是 正确 的 一 一 他 们 扩展 了 关系 模型 ! 例如 ，Roth 等 人 提出 了 并 的 一 种 扩展 形 
式 ， 用 我 们 的 术语 ，(a) 递归 地 解 组 操作 数 直到 它们 不 直接 或 者 间接 涉及 关系 赋值 属性 ; (b) 
在 这 些 解 组 操作 数 上 执行 规则 的 并 ; (c) 最 后 ， 再 递归 地 对 结果 分 组 。 正 是 递归 构成 了 扩展 。 
特殊 的 扩展 的 并 只 是 对 存在 的 关系 操作 符 的 一 些 特殊 合并 的 简化 ， 而 不 是 对 存在 的 关系 操作 
符 的 一 些 合并 的 普遍 的 简化 。 
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第 7 章 关系 代数 


引言 
关系 代数 是 一 个 操作 符 的 集合 ， 以 关系 作为 操作 对 象 ， 返 回 的 结果 是 一 个 关系 。 第 一 版 本 的 


代数 是 由 Codd 在 文献 [5.1] 和 [ 7.1] 中 定义 的 ; 文献 [7.1] 中 的 即 被 认为 是 基本 (original) 
的 关系 代数 。 原 始 的 代数 包含 8 个 操作 符 ， 每 四 个 分 成 一 组 : 


1) 传统 的 集合 操作 符 : 并 (union)、 交 (intersection)、 差 (difference) 和 笛 卡 尔 积 (Car- 


tesian product) 〈 所 做 的 修改 只 是 操作 对 象 变 为 了 特定 的 关系 ， 而 不 再 是 任意 的 集合 ) 。 


2) 专门 的 关系 操作 符 : 选择 (restrict) (也 就 是 通常 所 谓 的 选择 ) 、 投 影 (project) 、 连 接 


(join) 和 除 (divide) 。 


下 一 
作 符 绝 不 是 全 部 ,实际 上 满足 “关系 进 ， 关 系 


出 ” 


多 学 者 也 已 经 定义 了 不 少 操作 符 。 本 章 首先 讨论 
这 8 个 基本 的 操作 符 一 一 但 不 严格 是 那些 最 原始 


的 ， 


后 以 此 为 基础 讨论 有 关 代 数学 的 种 种 思想 ; 并 考 
虑 对 这 8 个 操作 符 的 基本 集合 进行 有 益 扩 展 的 几 
个 操作 。 


的 说 明 : 


日 在 这 里 将 要 讨论 的 几乎 所 有 操作 符 其 实 只 
” 是 简单 介绍 而 已 。 关 于 这 一 点 我 们 将 在 


7-1 非 正 式 地 描述 了 这 些 操作 符 如 何 工作 。 
Codd 曾 对 这 8 个 操作 符 做 出 精确 的 定义 ， 在 
章 将 会 看 到 这 些 定义 。 但 必须 明白 这 8 个 操 


这 一 简单 要 求 的 任何 操作 符 都 可 以 定义 。 许 


a 
a 
b 
b 
C 
C 


而 确实 是 从 它们 演变 而 来 的 那些 操作 符 ; 然 


在 详细 讨论 关系 代数 前 ， 有 必要 作 一 些 预备 
= 宽泛 地 讲 ， 所 有 的 操作 符 都 是 作用 于 关系 


的 ; 实际 上 , 它们 是 有 类 型 的 操作 符 ， 具 的 人 
体 类 型 与 关系 类 型 生成 子 相 关 ; 因此 通过 |faifi] [etla 四 
该 类 型 生成 子 ， 就 可 以 赋予 它们 任 一 指定 四 四 


的 关系 类 型 四 四 上 





7. 10 节 进 行 详 细 介绍 。 图 7-1 原始 的 8 个 操作 符 〈 概 述 ) 

em 所 有 的 操作 都 是 只 读 而 已 (也 就 是 ， 它 们 
能 读 取 但 不 能 更 改 操 作 数 ) 。 因 此 ， 它 们 作用 于 特定 的 值 一 一 关系 值 ， 但 那些 关系 值 (可 
能 碰巧 是 某 关 系 变量 的 当前 值 ) 不 会 有 任何 变更 。 

m 为 了 解释 前 面 所 说 的 几 点 ， 举 个 例子 吧 ,“ 在 关系 变量 R 的 属性 4 上 做 投影 ”， 意 味 着 这 
个 结果 关系 来 自 于 在 关系 变量 R 的 属性 4 的 投影 操作 。 但 是 ， 有 时 人 息 ， 为 了 方便 ， 会 使 
用 “在 关系 变量 怀 的 属性 A 上 做 投影 ”这 样 的 表达 式 表 示 另 外 不 同 的 意思 。 例 如 ， 定 义 
一 个 在 供应 商 的 关系 变量 S$ 上 的 视图 SC， 它 由 属性 S# 和 属性 CITY 构成 。 于 是 我 们 可 以 
宽泛 而 方便 地 说 ， 关 系 变量 SC 是 “S 在 S# 和 CITY 上 的 投影 ”"。 更 精确 地 讲 ， 这 意味 着 
在 某 一 个 给 定 的 时 刻 ， 关 系 变量 SC 可 以 看 作 是 变量 S 的 当前 值 在 属性 S# 和 CITY 的 投 
影 。 因 此 ， 从 某 个 意义 上 看 ， 在 关系 变量 上 的 投影 ， 其 实质 是 在 关系 变量 的 当前 值 上 的 投 
影 。 我 们 希望 这 些 专业 术语 的 双重 用 法 不 会 引起 混淆 。 

本 章 接 下 来 的 安排 如 下 : 在 本 节 之 后 ，7. 2 节 再 次 讨论 关系 封闭 的 问题 ， 着 重 举例 说 明 。 
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7.3 节 和 7.4 节 详 细 讨论 Codd 的 8 个 基本 操作 符 ，7. 5 节 给 出 用 这 些 操作 符 进行 描述 查询 的 一 些 
例子 。 接 下 来 ，7.6 节 考 虑 了 有 关 代数 的 作用 的 一 般 化 问题 。7. 7 节 讨 论 诸多 的 综合 性 问题 。7. 8 
节 描 述 了 对 Codd 基本 代数 的 一 些 有 益 扩 充 ， 包 括 扩 展 (EXTEND) 和 合计 (SUMMERIZE) 这 
两 个 重要 的 操作 符 。7. 9 节 讨论 了 在 含有 关系 属性 的 关系 和 不 包含 关系 属性 的 关系 之 间 进 行 映射 
的 操作 符 。 最 后 ，7. 10 节 给 出 一 个 简要 的 小 结 。 注 意 : 我 们 把 有 关 SQL 的 讨论 推迟 到 第 8 章 ， 
其 原因 也 将 在 那里 解释 。 


7.2 关系 封闭 性 


在 第 3 章 中 已 经 说 过 ， 任 何 给 定 的 关系 操作 的 结果 是 另 一 个 关系 ， 这 一 事实 被 称 为 关系 封闭 
的 特性 。 封 闭 性 意味 着 可 以 写 出 嵌 套 的 关系 表达 式 ， 也 就 是 说 ， 关 系 表 达 式 的 操作 对 象 可 以 用 任 
意 复 杂 的 关系 表达 式 来 表示 。 (关系 代数 中 的 关系 典 套 和 普通 算术 中 的 算术 表达 式 谱 套 有 类 似 之 
处 ; 代数 中 的 关系 是 封闭 的 ， 这 一 点 和 “普通 算术 中 的 数 是 封闭 的 ”这 一 事实 具有 同样 的 重要 性 。) 

当 第 3 章 讨论 封闭 性 时 ,故意 忽略 了 非常 重要 的 一 点 。 回 顾 一 下 便 知 ， 每 个 关系 分 为 两 部 
分 一 一 表 头 和 主体 ; 不 严格 地 讲 ， 表 头 是 属性 ， 主 体 是 元 组 。 现 在 ， 基 本 关系 的 表 头 〈 回 顾 一 
下 第 5 章 所 讲 的 : 一 个 基本 关系 就 是 一 个 基本 关系 变量 的 值 ) 对 系统 来 说 是 非常 容易 理解 的 ， 
因为 它 在 基本 关系 变量 的 定义 中 被 明确 指定 了 。 但 是 那些 派生 的 关系 的 表 头 又 如 何 呢 ? 例如 ， 考 
虑 下 面 的 表达 式 : 


S JOIN P 


(本 例 表 示 了 供应 商 和 零件 关系 通过 匹配 城市 进行 连接 。CITY 是 两 个 关系 之 间 唯 一 的 共同 属 
性 ) 。 我 们 知道 结果 中 主体 的 形式 ， 但 表 头 是 何 种 形式 呢 ? 封闭 性 规定 ， 结 果 必 须 有 一 个 表 头 ， 
并 且 对 系统 是 可 知 的 (实际 上 ， 用 户 也 必须 知道 ， 过 一 会 儿 将 会 谈 到 )。 换 句 话 说 ， 结 果 必须 是 
一 个 定义 好 的 关系 类 型 。 如 果 严 格 地 根据 封闭 性 ， 定 义 的 关系 操作 必须 保证 每 个 操作 的 结果 具有 
正确 的 关系 类 型 一 一 尤其 是 要 有 正确 的 属性 名 称 。 (我 们 刚刚 说 过 ， 这 是 历史 上 被 严重 忽略 了 的 
关系 代数 的 一 个 方面 ; 遗憾 的 是 ， 对 SQL 语言 也 存在 同样 的 问题 ， 然 后 到 SQL 的 产品 一 一 可 以 
在 参考 文献 [7.2] 和 [7. 10] 中 看 到 需要 注意 的 意外 情况 的 说 明 。 本 章 中 所 介绍 的 关系 代数 深 
受 这 两 份 参考 文献 的 影响 。) 

我 们 要 求 每 一 个 结果 关系 有 正确 的 属性 名 ， 原 因 之 一 是 这 使 我 们 可 以 引用 子 操作 中 的 那些 属 
性 -一 特别 是 在 整个 嵌 套 表达 式 的 其 余部 分 的 操作 中 。 例 如 ， 如 果 不 知道 S JOIN P 的 结果 中 有 
一 个 叫 CITY 的 属性 名 ， 就 不 能 写 如 下 的 表达 式 ， 


( S JOIN P ) WHERE CITY = ‘Athens' 


因此 ， 我 们 所 需要 的 ， 是 一 套 融 入 到 代数 中 的 关系 类 型 推演 规则 。 这 样 ， 如 果 我 们 知道 给 定 关 
系 操 作 的 输入 关系 的 类 型 ， 就 可 以 推断 其 输出 关系 的 类 型 。 假 如 有 这 样 一 个 规则 ， 那 么 任意 的 关系 
表达 式 ， 不 论 怎样 复杂 ， 产 生 的 结果 就 会 有 一 个 明确 的 类 型 ， 尤 其 是 有 一 个 明确 的 属性 名 的 集合 。 

为 此 ， 先 介绍 一 个 新 的 操作 符 一 一 RENAME。 它 的 作用 是 对 给 定 的 关系 中 的 属性 重 命名 。 
确切 地 说 ，RENAME 操作 输入 一 个 给 定 关系 ,返回 男 一 个 关系 ， 输 出 的 关系 与 输入 关系 除了 有 
一 个 属性 名 不 同 之 外 ， 其 他 是 完全 相同 的 。( 给 定 的 关系 可 通过 关系 表达 式 来 指定 ， 该 表达 式 还 
可 能 笛 套 其 他 的 关系 操作 。) 例如 ， 可 以 写 出 如 下 的 式 子 : 


S RENAME CITY AS SCITY 
注意 ， 这 不 是 一 个 命令 或 声明 ， 而 是 一 个 表达 式 。 因 此 ， 它 可 以 髓 套 在 别 的 表达 式 里 面 一 一 
产生 一 个 与 关系 变量 S 有 相同 表 头 和 主体 的 关系 ， 只 是 属性 CITY 更 名 为 SCITY: 


| Buns TSaaus [sc | 


20 | London 
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请 注意 RENAME 表达 式 没 有 改变 数据 库 中 的 供应 商 关 系 变量 ! 它 只 是 一 个 表达 式 (例如 ， 
确切 地 说 ，S JOIN SP 也 仅仅 是 一 个 表达 式 ) ， 像 其 他 表达 式 一 样 ， 它 简单 地 指示 了 某 一 个 具体 
的 值 一 一 在 这 个 特殊 的 例子 中 ， 这 个 值 碰巧 看 起 来 像 供应 商 关 系 变量 的 当前 值 。 

下 面 有 另外 一 个 例子 (这 次 是 多 个 属性 改名 ):; 


P RENAME ( PNAME AS PN, WEIGHT AS WT ) 
这 个 表达 式 可 以 速记 如 下 : 
( P RENAME PNAME RS PN ) RENAME WEIGHT AS WT 


其 结果 如 下 : 











有 必要 明确 地 指出 ，RENAME 的 应 用 意味 着 关系 代数 (不 像 SQL) 没有 必要 使 用 其实 也 
不 支持 ) 像 S. S# 那 样 严格 的 名 字 。 


7.3 基本 代数 : 语法 


本 节 将 根据 Tatorial D 来 介绍 关系 代数 表达 式 具 体 的 语法 ， 包 括 8 个 基本 操作 符 和 RE- 
NAME 操作 。 这 里 介绍 语法 的 主要 目的 是 为 了 后 面 章节 的 引用 ， 也 包括 了 一 些 语义 上 需要 注意 
的 要 点 。 注 意 : 大 多 数 数据 库 书籍 使 用 了 一 些 数 学 的 或 希腊 文 的 符号 来 表示 关系 操作 符 ， 典 型 的 
有 以 o 表示 选择 (selection) ，T 表示 投影 ，n 表示 交 ，pa 表 示 连 接 ， 等 等 。 大 家 可 能 注意 到 ， 
我 们 更 喜欢 用 诸如 JOIN 和 WHERE 等 关键 字 ， 这 些 关键 字 虽 会 使 表达 式 变 得 稍 长 一 些 ， 但 它 使 
表达 式 变 得 更 易 读 。 

<relation exp> 

:= RELATION { <tuple exp commalist> } 
CeIn invy 
<with exp> 


<introduced name> 
( <relation exp> ) 


每 一 个 < relation exp > 表达 式 指示 一 个 关系 (也 就 是 一 个 关系 值 )。 第 一 个 形式 是 关系 选择 
子 调 用 (请 参见 第 6 章 ) ; 在 此 我 们 不 列 出 < tuple exp > 的 详细 语法 ， 因 为 例子 本 身 已 足以 说 明 
它们 的 基本 意思 。 < relvar name > 和 < relalion exp > 都 可 以 自我 解释 ， 其 他 的 形式 解释 如 下 。 

<relation op InV> 

::= <project> | <nonproject> 

每 一 个 关系 操作 调用 < relation op inv > ， 不 是 <project > 就 是 <nonproject > 。 注 意 : 我 们 从 
语法 上 区 分 这 两 种 情况 是 因为 操作 符 本 身 的 优先 级 问题 (这 样 就 很 容易 赋予 project 更 高 的 优 
先 级 ) 。 

< 


<relation exp> | 
{ [ ALL BUT ] <attribute name commalist> } 


< relation exp > 必定 不 是 <nonproject > ( 非 投影 符 )。 


<nonproject> , 
:= <rename> | <union> | <intersect> | <minus> | <times> 
| <where> | <join> | <divide> 
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<rename> 
:= <relation exp> RENAME ( <renaming commalist> ) 


< relation exp > 必须 不 是 < nonproject > 。 每 一 个 < renaming > 将 按 它们 的 顺序 来 执行 (关于 
< renaming > 的 语法 请 参照 前 一 节 的 例子 ) 。 如 果 逗 号 表达 式 只 包含 一 个 < renaming > ， 那 么 圆 
括号 可 以 省 略 。 


<union> 
:= <relation exp> UNION <relation exp> 


< relation exp > 必须 不 是 < nonproject > 。 除 非 其 中 之 一 或 两 者 都 是 另 -一 个 < union > 。 


<intersect> 
: := <relation exp> INTERSECT <relation exp> 


< relation exp > 必须 不 是 < nonproject > 。 除 非 其 中 之 一 或 两 者 都 是 男 一 个 < intersect > 。 


<minus> 
:= <relation exp> MINUS <relation exp> 


< relation exp > 必须 不 是 < nonproject > 。 
<times> 


:= <relation exp> TIMES <relation exp> 


< relation exp > 必须 不 是 < nonproject > 。 除 非 其 中 之 一 或 两 者 都 是 男 一 个 < ftimes > 。 


<where> 
:= <relation exp> WHERE <bool exp> 
< relation exp > 必须 不 是 <nonproject > 。 < pool exp > 可 以 引用 < relation exp > 所 指示 的 关 
系 的 属性 ， 它 的 语义 很 明显 。 


<join> 
;= <relation exp> JOIN <relation exp> 


< relation exp > 必须 不 是 < nonproject > 。 除 非 其 中 之 一 或 两 者 都 是 另 一 个 < join > 。 


<divide> 
: := <relation exp> DIVIDEBY <relation exp> PER <per> 


< relation exp > 必须 不 是 < nonproject > 。 


<per> 
::= <relation exp> | ( <relation exp>, <relation exp> ) 


< relation exp > 必须 不 是 < nonproject > 。 


,PY 1TH <name intro commalist> : <exp> 

在 本 书 中 我 们 主要 关注 < with exp > 是 关系 表达 式 的 情况 ， 这 也 是 为 什么 我 们 要 在 本 章 中 讨 
论 它 的 原因 。 然 而 ，< with exp > 也 可 以 支持 标量 和 元 组 ; 事实 上 ， 一 个 给 定 的 < with exp > 是 
<relation exp > 、< tuple e 友 > 和 <scalar exp > 中 的 哪 一 情形 ， 是 由 冒号 后 面 的 < exp > 决定 的 ， 
也 就 是 < with exp > 的 实际 情形 与 该 < exp > 的 情形 相 一 致 。 无 论 是 什么 情况 ， 每 一 个 < name in- 
tro > 将 按照 它们 的 书写 顺序 被 执行 ，< with em > 的 语义 通过 < etp > 的 实际 值 来 定义 一 一 
<exp > 中 每 一 个 引入 的 名 称 将 由 该 名 称 变量 的 实际 值 (也 就 是 相应 表达 式 的 执行 结果 ) 替换 。 
注意 ; WITH 不 是 关系 代数 中 的 操作 ， 而 是 用 来 描述 那些 复杂 表达 式 (尤其 是 那些 含有 逗号 的 子 
表达 式 ) 的 符号 而 已 。 我 们 将 在 7. 5 节 给 出 一 些 例子 。 


<name intro> 
: := <exp> RS <introduced name> 
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如 果 < exp > 允许 的 话 (必要 的 时 候 可 以 引入 插 号 )，< introduced name > 可 以 散人 入 到 < with 
emp > 中。 


7.4 基本 代数 : 语义 


1. 并 

数学 中 两 个 集合 的 并 是 这 两 个 集合 的 所 有 元 素 组 成 的 集合 。 因 为 一 个 关系 是 (或 说 包含 ) 
一 个 集合 (一 个 元 组 的 集合 ) ， 所 以 构造 这 样 两 个 集合 的 并 是 完全 可 能 的 ; 所 得 结果 包含 了 出 现 
在 任 一 个 或 两 个 原 关 系 中 的 所 有 元 组 。 例 如 ， 关 系 变量 8 中 的 供应 商 元 组 的 集合 与 关系 变量 中 
的 零件 元 组 的 集合 的 并 当然 是 一 个 集合 。 

然而 ， 尽 管 这 一 结果 是 一 个 集合 ， 却 不 是 一 个 关系 ; 关系 不 能 含有 不 同类 型 的 元 组 ， 且 其 中 
的 元 组 必须 是 同类 的 。 当 然 ， 我 们 希望 结果 是 一 个 关系 ， 因 为 要 保持 封闭 性 。 所 以 ， 关 系 代 数 中 
的 并 不 是 通常 数学 中 的 并 ; 它 是 一 种 特殊 类 型 的 并 ， 要 求 两 个 参与 操作 的 关系 是 同一 类 型 一 一 即 
它们 或 者 只 包含 供应 高 元 组 ， 或 者 只 包含 零件 元 组 ， 而 不 能 是 两 者 的 混合 。 如 果 两 个 关系 属于 同 
一 类 型 ， 那 就 可 以 进行 并 操作 ， 得 到 的 结果 是 一 个 相同 类 型 的 关系 ; 换 句 话说， 封闭 的 特性 被 保 
持 了 下 来 。 注 意 : 历史 上 ， 很 多 数据 库 文献 (也 包含 本 书 的 早期 版 本 ) 用 合并 兼容 性 〈union 
compatibility) 这 个 词 来 描述 两 个 关系 具有 相同 类 型 的 思想 。 然 而 ， 由 于 诸多 原因 这 个 词 并 不 是 
非常 恰当 ; 其 中 最 明显 的 原因 是 其 兼容 性 思想 并 不 仅仅 使 用 于 并 (union)。 

下 面 是 关系 并 操作 的 定义 : 给 定 两 个 相同 类 型 的 关系 a 和 b， 两 者 的 并 ， 即 a UNION pb， 是 相 
同类 型 的 一 个 关系 ; 该 关系 的 主体 由 出 现在 a 中 或 5b 中 或 同时 出 现在 两 者 之 中 的 所 有 元 组 组 成 。 

例如 ; 假设 关系 A 和 B 如 图 7-2 所 示 (都 从 供应 商 关 系 变量 S 的 当前 值 导出 ; 4 是 在 伦敦 的 
供应 商 ，B 是 提供 零件 Pl 的 供应 商 )。A UNION 8 (请 看 该 图 的 第 1 部 分 ) 就 是 或 者 在 伦敦 、 或 
者 提供 零件 Pi 的 供应 商 ( 或 者 两 者 兼 有 )。 注 意 : 结果 有 3 个 (而 不 是 4 个 ) 元 组 ; 重复 的 元 
组 按照 定义 被 删除 掉 了 (宽泛 地 讲 ， 并 操作 取消 了 重复 ) 。 其 他 涉及 删除 重复 元 组 的 操作 符 只 有 
投影 (在 本 节 的 后 面 将 会 讲 到 )。 


A B 


| 51 | svnws | manos [err | [ s1 | sve | snaros | G17r 
S1 | smith London S1 | smith 20 | London 
S4 | Clark London S2 | Jones 10 | Paris 


1. Union 
(A UNION B) 









































2. Intersection 


人 RSSRSECY B) 站 全 


EEC 


. Difference 4. Difference 
{A MINUS B) {8 MINUS A) 


| s# | SNaAME | STATUS | cITY s# | SNAME | STATUS 
coe | 20 fronaon | [2 [sores | 10 [ soris 


图 7-2 并 、 交 、 差 举例 


顺便 说 一 下 ， 两 个 关系 的 并 依赖 于 元 组 等 同性 ， 下 面 介 绍 一 个 和 前 面 等 价 但 是 表述 方式 不 同 
的 定义 ， 它 很 好 好 说 明了 元 组 等 同性 〈 修 订 版 更 加 强调 这 一 点 ) : 假定 关系 a 和 46 具有 相同 的 类 
型 ， 它 们 的 主体 由 这 样 的 元 组 :组 成 ， 元 组 :等 于 (也 就 是 一 个 副本 ) a 中 或 者 b 中 ,或 者 在 a， 
b 中 同时 存在 的 一 个 元 组 。 类 似 的 定义 同样 适用 于 交 和 差 的 操作 ， 读 者 将 在 随后 的 部 分 看 到 。 

2. 交 

由 于 和 并 基本 相同 的 原因 ， 关 系 交 操作 符 的 操作 对 象 必须 是 相同 类 型 的 。 给 定 类 型 相同 的 关 
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系 a 和 4b， 它 们 的 交 a INTERSECT b 是 一 个 相同 类 型 的 关系 ， 关 系 的 主体 包含 同时 出 现在 a 和 4 
中 的 所 有 元 组 。 

例如 : 假设 关系 A 和 8B 如 图 7-2 所 示 ，A INTERSECT B (请 看 该 图 的 第 2 部 分 ) 就 是 既 在 伦 
敦 又 提供 零件 Pl 的 供应 商 。 

3. 差 

像 并 和 交 一 样 ， 关 系 的 差 操作 符 也 要 求 操作 对 象 是 同一 类 型 。 给 定 两 个 类 型 相同 的 关系 a 和 
b， 它 们 的 差 a MINUS b (两 者 有 先后 次 序 ) 是 一 个 相同 类 型 的 关系 ， 关 系 的 主体 包含 属于 a 但 
不 属于 b 的 所 有 元 组 。 

例如 : 4 和 B 如 图 7-2 所 示 。4 MINUS 8 (请 看 图 的 第 3 部 分 ) 是 在 伦敦 、 但 不 提供 零件 PI 
的 供应 商 ，B MINUS 4 (请 看 图 的 第 4 部 分 ) 是 提供 零件 Pl1、 但 不 在 伦敦 的 供应 商 。 注 意 ML 
NUS 有 一 个 顺序 性 ， 就 像 通 常数 学 中 的 减法 (“5-2” 和 “2-5” 不 是 同一 件 事情 )。 

4. 积 

数学 里 两 个 集合 的 笛 卡 尔 积 是 满足 如 下 条 件 的 有 序 对 的 集合 : 每 个 有 序 对 的 第 一 个 元 素来 自 
第 一 个 集合 ， 第 二 个 元 素来 自 第 二 个 集合 。 因 此 ， 两 个 关系 的 笛 卡 尔 积 可 粗略 地 说 是 有 序 元 组 对 
的 集合 。 但 我 们 想 保 持 封闭 的 特性 ， 换 名 话说， 我 们 想 要 结果 包含 元 组 ， 而 不 是 有 序 的 元 组 对 。 
因此 ， 关 系 的 笛 卡 尔 积 是 对 这 一 操作 的 扩充 ， 其 中 每 个 有 序 元 组 对 代替 以 两 个 相关 元 组 相 并 得 出 
的 一 个 元 组 (这 里 的 “并 ”是 一 般 集 合理 论 上 的 并 ， 而 不 是 特殊 的 关系 意义 上 的 )。 也 就 是 说 ， 
给 定 元 组 ? ， 


{ Al al, A2 a2，.… .Am am } 
和 
{ Bl1 bl, B2 b2, ..., Bn bn } 
两 者 的 并 是 单个 元 组 : 
{ Al al，A2 a2, ..., Am am, B1 bl, B2 b2, ..., Bn bn } 


注意 ,为 了 简化 ， 我 们 在 这 里 假定 两 个 元 组 间 没 有 相同 的 属性 ， 下 面 的 段落 将 对 此 作 详 细 的 
说 明 。 

笛 卡 尔 积 中 存在 的 另 一 个 问题 是 : 需要 结果 关系 有 一 个 正确 形式 的 表 头 ( 即 正 确 的 关系 类 
型 ) 。 现 在 已 明确 的 是 ， 结 果 的 表 头 包含 了 两 个 输入 关系 的 所 有 属性 。 如 果 两 个 关系 的 表 头 有 共 
同 的 属性 名 ， 问 题 就 会 出 现 了 ; 如 果 操 作 人 允许 ， 结 果 的 表 头 会 有 两 个 相同 名 称 的 属性 ， 这 就 不 再 
是 “结构 良好 ”( well-formed) 了 。 如 果 对 两 个 有 相同 属性 名 称 的 关系 进行 笛 卡 尔 积 操作 ， 必 须 
首先 用 RENAME 操作 符 适 当地 更 改 属性 的 名 称 。 

因此 我 们 如 下 定义 两 个 关系 a 和 5 的 笛 卡 尔 积 : a TIMES bp， 其 中 a 和 4&5 没有 共同 的 属性 名 
称 ， 两 者 的 笛 卡 尔 积 是 一 个 关系 ， 它 的 表 头 是 a 和 4 表 头 的 并 (集合 并 ) ， 主 体 包括 所 有 a 中 的 
元 组 和 4b 中 的 元 组 进行 并 操作 而 得 到 的 元 组 。 注 意 ， 结 果 的 基数 是 a 的 基数 和 6。 的 基数 的 乘积 ， 
结果 的 度 是 a 的 度 和 4， 的 度 的 和 。 

例如 : 关系 A 和 B 如 图 7-3 所 示 (4 是 所 有 的 当前 供应 商号 码 ，B 是 所 有 的 当前 零件 号 码 ) 。 
于 是 4 TIMES B (参看 图 7-3 的 下 半 部 分 ) 就 是 所 有 的 供应 商号 码 和 零件 号 码 对 。 


5. 选择 
伐 设 关系 4 含有 属性 关 和 (也 中 陛 还 有 拓扑 )， 假设 9 是 一 个 比较 操作 符 ， 诸 如 “ 
“> ' 等 ; 因此 ,布尔 表 达 式 Xb 了 是 结构 良好 的 ， 对 X 和 了 赋予 具 体 的 值 ， 则 能 


计算 出 真 候 值 (imue 或 false) 。 因 此 ， 关系 4 在 属性 X 和 了 Y 了 上 (X 和 了 有 前 后 顺序 ) 的 6 选择 
(grestriction ) (或 者 简称 选择 ) 





”Tatorial D 要 求 在 每 一 个 这 样 的 表达 式 前 出 现 关键 字 TUPLE。 
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a WHERE X DY 了 


是 一 个 关系 ， 关 系 的 表 头 和 a 的 一 样 ， 主 体 包括 所 有 满足 条 件 和 0 7 为 真 的 元 组 。 

注意 : 前 面 对 选 择 的 定义 是 在 众多 著作 中 公认 的 一 种 (包括 本 书 以 前 的 版 本 )， 但 是 我 们 却 
可 以 做 如 下 的 推广 : 假定 关系 a 有 属性 X,Y,…,2Z (可 能 还 有 其 他 的 属性 ) ,假设 p 是 布尔 函数 ， 
它 的 参数 ， 准 确 地 说 是 属性 X, 了 ,…,Z 的 一 个 子 集 。 这 样 ， 关 系 a 在 p 上 的 选择 


a WHERE p 


的 结果 是 一 个 关系 ， 具 有 和 a 完全 相同 的 表 头 ， 它 的 主体 由 那些 令 己 为 TRUE 的 元 组 构成 。 














图 7-3 第 卡尔 积 举 例 


选择 操作 符 能 有 效 地 产生 给 定 关系 的 横向 (horizontal) 子 集 -一 一 即 给 定 关系 元 组 中 满足 特 
定 选 择 条 件 的 元 组 子 集 。 图 7-4 给 出 了 几 个 例子 〈 它 们 将 阐明 刚才 对 选择 所 作 的 抽象 定义 ) 。 


[SR Sanus [cns | 
St | Smith London 
S4 | Clark London 
Pp WHERE WEIGHT < | PNAME | COLOR CITY 
TI < Let | coroR weIGem | CITY | 
ut Red London 
Paris 


3 人 

















S WHERE CITY = London 

















SP WHERE S# 
OR P# 


tt 


图 7-4 选择 举例 


这 里 需 说 明 几 点 : 

1) 关键 字 WHERE 后 面 的 表达 式 p 是 个 布尔 表达 式 , 但 事实 上 ， 它 在 某 种 意义 上 可 以 看 作 
是 第 9 章 所 介绍 的 谓词 。 

2) 我 们 将 谓词 作为 选择 条 件 (restriction condition) 。 对 于 某 个 元 组 ， 如 果 它 可 以 不 用 考虑 
该 表 上 的 其 他 元 组 就 能 对 选择 条 件 求 值 ， 那 它 就 是 一 个 简单 选择 条 件 。 从 这 个 意义 上 讲 ， 图 7-4 
上 的 所 有 选择 条 件 都 是 简单 的 ， 但 这 里 还 要 给 出 一 个 非 简单 选择 条 件 的 例子 : 


S WHERE ( ( SP RENAME S# RS X ) WHERE X = S# ) { P# } = P{ P#} 


我 们 将 在 后 面 介绍 除法 操作 时 再 详细 地 讨论 这 个 例子 。 
3) 下 面 这 些 等 价 的 式 子 也 值得 注意 : 
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a WHERE pl OR p2 # ( a WHERE pl ) UNION ( a WHERE p2 ) 
a WHERE pl AND p2  ( a WHERE pl ) INTERSECT ( a WHERE p2 ) 
a WHERE NOT ( p ) ¥ a MINUS ( a WHERE p ) 


6. 投影 

假定 关系 a 有 属性 X, Y,…, Z (可 能 还 有 其 他 属性 ) 。 关 系 4 在 X,Y,…, Z 上 的 投影 
1X, 了 ,…, Z | 是 一 个 满足 如 下 条 件 的 关系 : 

sm 表 头 由 a 的 表 头 除去 不 包含 在 集合 1X, 了,…, Z| 中 的 属性 而 得 到 。 

@ 主体 包含 所 有 形式 为 |X x,Yy ,…, Z z| 的 元 组 ; 且 关 系 a 存在 这 样 的 元 组 ， 其 属性 X,Y,， 

…,2Z 的 值 分 别 为 Xx, y,…, Zo 

投影 操作 能 有 效 地 产生 给 定 关 系 的 垂直 (vertical) 子 集 ， 该 子 集 是 由 除去 不 包含 在 指定 列 
表 中 的 属性 ， 且 消除 由 此 产生 的 重复 〈 子 ) 元 组 而 得 出 的 。 

几 点 解释 : 

1) 在 属性 名 称 的 列表 中 ， 不 能 有 重复 的 属性 (为 什么 不 能 ?) 。 

2) 现实 中 经 常 出 现 这 种 情况 : 指定 被 投影 掉 (也 就 是 被 删除 掉 ) 的 属性 比 指定 投影 的 属性 
更 方便 。 例 如 ， 我 们 可 能 会 说 “从 关系 P 中 投影 掉 属性 WEIGHT"”， 而 不 说 “关系 了 投影 在 属性 
P#、PNAME、COLOR 和 CITY 上 ”， 就 像 下 面 这 样 : 


Pp { ALL BUT WEIGHT } 


图 7-5 给 出 了 几 个 投影 的 例子 。 注 意 第 
一 个 例子 (供应 商 在 CITY 上 的 投影 )， 尽 
管 关系 变量 S 当前 含有 5 个 元 组 ， 即 有 5 个 
城市 ， 但 结果 中 只 有 3 个 城市 一 一 重复 的 城 
市 ( 即 重 复 的 元 组 ) 被 删除 了 。 在 其 他 例 
子 上 有 类 似 的 情况 。 

7. 连接 

连接 (join) 存在 几 种 不 同 的 变种 。 然 
而 ， 最 简单 且 最 重要 的 是 所 谓 的 自然 连接 ， 
实际 上 ， 按 非 正式 的 说 法 ， 连 接 总 是 特 指 自 
然 连接 ， 本 书 也 采用 这 种 用 法 。 下 面 是 有 关 
定义 (有 点 抽象 ， 但 读者 应 从 第 3 章 的 讨 





a 







London 
Paris 
Athens 


Er 


Red London 
Green | Paris 
Blue Oslo 
Blue Paris 


( S WHERE CITY = 'Paris' ) { S# } 
S2 
S3 








P { COLOR, CITY } 



















论 中 对 自然 连接 有 些 直观 的 了 解 )。 假 设 关 图 7-5 投影 举例 
系 a 和 45 分 别 有 属 性 : 

Xl1, KX2, .os Km, Yl1, Y2, .os Yn 
和 

Yl, Y2, ..., Yn, 21, 22, ..., 2p 


即 了 属性 1, 六,…，Yn 是 两 个 关系 的 共同 属性 , 属性 X1, 如 ,…, Xm 是 a 的 特有 属性 ，Z 属 
性 2Z1, 如 ,…, 2p 是 b 的 特有 属性 。 注 意 : 
s 有 了 属性 重 命名 操作 RENAME ， 我 们 可 以 不 失 一 般 性 地 假定 ， 没 有 属性 Xi(i=1,2,3,…， 
m) 和 属性 如 (j =1,2,…,p) 具 有 相同 的 名 字 。 
a 在 a 和 上 4b 中， 每 一 个 属性 Y(k=1,2,…,n) 都 有 相同 的 类 型 (否则 ， 按 照 定义 ， 它 们 不 可 
能 是 共同 的 属性 ) 。 
现在 把 1， 于， 2 、 | 刀 ， 肥 ,和 121, 到,…Z2} 分 别 看 作 是 复合 属性 X、Y 和 
Z。 于 是 a 和 4b 的 自然 连接 
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a JOIN b 


是 一 个 关系 。 它 的 表 头 是 1X,Y,Z| ; 主体 包含 所 有 元 组 [1X x,Y y, Z z| ， 其 中 含有 半 的 值 x 和 了 了 
的 值 y 的 元 组 出 现在 a 中 , 含有 了 的 值 y 和 Zz 的 值 z 的 元 组 出 现在 b 中 。 
图 7-6 给 出 了 一 个 自然 连接 (在 共同 属性 CITY 上 的 自然 连接 S JOIN P) 。 


EE ET EN a 


London 


.0 
4:0 
0 
-0 
.0 
.0 
.0 
.0 
.0 
.0 





图 7-6 自然 连接 S JOIN P 


注意 : 连接 并 不 总 是 在 外 码 和 相对 应 的 主 码 (或 候选 码 ) 之 间 进 行 ， 尽 管 这 样 的 连接 
很 普通 且 很 重要 。 关 于 这 一 点 已 经 举例 说 了 多 遍 ， 实 际 上 图 7-6 也 给 出 了 说 明 ， 但 仍 需要 
讲 清楚 。 

还 需要 注意 的 是 ， 上 述 的 自然 连接 的 定义 恰好 建立 在 等 值 比较 的 基础 上 。 考 虑 关于 该 定义 的 
如 下 几 方 面 : 

s 如 果 半 =0 (意味 着 a 和 4 没有 共同 的 属性 ) ， 那 么 a JOIN 5b 退化 为 a TIMES 0。9 

如 果 m=p=0 (a 和 4b 具有 相同 的 类 型 )， 那么 a JOIN b 退化 为 a INTERSECT b。 

接 下 来 考虑 9 连接 操作 。6 连接 是 扩展 自然 连接 ， 以 支持 其 他 比较 而 不 是 相等 比较 的 情况 
(这 种 情况 相对 来 说 比较 少 ， 但 决 不 是 没有 ) 。 假 设 关系 a 和 45 满足 笛 卡 尔 积 的 条 件 ( 即 它们 没 
有 共同 的 属性 名 称 ) ; 又 设 a 有 属性 X，b 有 属性 Y， 且 XX、Y 和 0 满足 9 选择 的 需求 。 于 是 关系 a 
和 4 在 属性 X 和 Y 上 的 69 连接， 定义 为 如 下 表达 式 操作 的 结果 : 


(a TIMES b ) WHERE X 9 了 


换 句 话说 ， 其 结果 关系 的 表 头 和 a 与 b 的 笛 卡 尔 积 的 表 头 相同 ， 主 体 包含 满足 以 下 条 件 的 元 组 1: 
! 出 现在 第 卡尔 积 中 ， 且 使 条 件 “X 6 Y” 为 真 。 

下 面 通过 一 个 例子 来 说 明 ， 假 设 需 要 计算 关系 S 和 PP 在 CITY 上 的 大 于 连接 (这 里 的 6 是 
“>”; 由 于 属性 CITY 被 定义 为 CHAR 型 的 ， 因 此 ， 大 于 在 这 里 就 简单 地 解释 为 “在 字母 的 次 
序 上 大 于 ” )。 大 致 的 关系 表达 式 如 下 所 示 : 


( ( S RENAME CITY AS SCITY ) TIMES 
. ( P RENAME CITY AS PCITY ) ) 
*’ WHERE SCITY > PCITY 
请 注意 此 例 中 对 属性 名 称 的 修改 〈 当然 ， 只 修改 两 个 CITY 名 称 中 的 一 个 就 足够 了 ; 两 个 都 
修改 是 为 了 对 称 ) 。 全 部 表达 式 的 结果 见 图 7-7。 
如 果 8 是 “=”， 则 9 连接 称 为 等 值 连接 (equijoin)。 由 定义 可 知 ， 等 值 连接 的 结果 必须 包 
含 这 样 的 两 个 属性 : 它们 的 值 在 关系 的 每 个 元 组 上 都 相等 。 如 果 这 两 个 属性 中 的 一 个 被 投影 掉 且 
另 一 个 相应 地 改名 (车 需 要 的 话 ) ， 则 结果 就 是 一 个 自然 连接 ! 例如 ， 供 应 商 和 零件 (在 CITY 
上 ) 的 自然 连接 的 表达 式 


S JOIN P 


等 价 于 下 面 更 复杂 的 式 子 





O 在 文献 [3.3] 中 定义 的 Tutorial D， 正 是 因为 这 个 原因 而 没有 直接 支持 TIMES 操作 。 
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( ( S TIMES ( P RENAME CITY AS PCITY ) ) 
WHERE CITY = PCITY ) 
{ AL BUT PCITY } 


注意 : Tutorial D 不 直接 支持 0 连接 操作 符 ， 因 为 〈(a) 在 实际 中 不 经 常 需要 ; (b) 它 不 是 一 个 
基本 的 操作 符 〈 即 可 以 用 别 的 操作 符 表 示 它 ， 这 我 们 已 经 看 到 过 了 ) 。 











STATUS 





London 
Oslo 

London 
London 
London 
Osio 

London 
London 


.0 
.0 
.0 
0 
.0 
0 
.0 
.0 








图 7-7 供应 商 和 零件 在 CITY 上 的 大 于 连接 


8. 除 

参考 文献 [7.4] 定义 了 两 个 不 同 的 “ 除 ” 操 作 : 小 除 (small divide) 和 大 除 (great di- 
vide) 。 在 Tutorial D 中 ，<per > 项 只 含有 一 个 <relation exp > 的 < divide > 称 为 小 除 ， 含 有 两 个 
<relafion exp > 的 <divide > 称 为 大 除 。 下 面 的 叙述 只 适用 于 小 除 ， 且 只 适用 于 特定 形式 的 小 除 。 
关于 大 除 的 讨论 和 有 关 小 除 的 更 详细 的 内 容 请 参看 [7.4]。 

应 该 说 明 ， 这 里 讲 的 小 除 与 Codd 所 说 的 除 不 一 样 ， 实 际 上 ， 在 处 理 空 关系 时 ， 原 始 的 操作 
符 有 一 定 的 困难 ， 而 小 除 是 对 原始 版 本 的 一 个 改进 。 它 与 本 书 前 几 个 版 本 所 讲 的 也 不 一 样 。 

这 里 给 出 小 除 的 定义 。 设 关系 a 和 4 分别 有 属性 : 


Yl, Y2, ..., Yn 


这 里 ,没有 任何 一 个 属性 鳞 (i=1,2,…,m) 与 属性 六 (j=1,2,…,n) 具 有 相同 的 名 字 。 设 关系 c 有 
属性 : 


XI，X2，...，Xnm Yl1, Y2, ..., Yn 


( 即 c 的 表 头 是 e 和 请 的 表 头 的 并 ) 。 现 在 把 1X， 竟 ，…，Xm| 和 [1 人， 取 ，…， 区 | 分 别 看 
作 是 复合 属性 X 和 Y。 于 是 a 根据 c 除 以 b (其 中 a 是 被 除数 ,5 是 除数 ，c 是 中 间 数 ) 


a DIVIDEBY b PER C 


得 到 的 结果 是 一 个 关系 ， 关 系 的 表 头 是 1X| ， 主 体 包 含 符合 如 下 条 件 的 元 组 1Xx| : 它 来 自 c 的 元 
组 1Xx,，Yy| ， 其 中 每 个 元 组 对 应 于 b 中 所 有 的 元 组 {1Yy} 。 也 可 以 粗略 地 说 ， 结 果 关 系 包含 a 中 
满足 如 下 条 件 的 X 值 : 在 c 中 对 应 的 了 值 包 含 b 中 的 所 有 了 Y 值 。 这 里 再 次 强调 元 组 的 等 价 性 。 

图 7-8 介绍 了 几 个 除 的 简单 例子 。 在 每 个 例子 中 的 被 除数 (DEND) 是 关系 S 在 S# 上 的 投 
影 ; 中 间 数 (MED) 是 关系 SP 在 S# 和 P# 上 的 投影 ， 三 个 除数 (DOR) 如 图 所 示 。 特 别 要 注意 
最 后 一 个 例子 ， 其 中 的 除数 是 一 个 包含 所 有 已 知 零 件 号 码 的 关系 ; 结果 显示 了 提供 所 有 这 些 零 件 
的 供应 商 的 号 码 。 从 例子 中 可 以 看 出 ，DIVIDEBY 操作 符 用 于 查询 共同 的 本 质 ; 实际 上 ， 车 在 自 
然 语言 的 查询 中 包含 “所 有 ” (all) 一 类 的 词 (“查询 提供 所 有 零件 的 供应 商 ") ， 则 极 有 可 能 用 
到 除法 。( 实际 上 ，Codd 特别 地 扩展 除 ， 使 关系 代数 得 以 支持 全 称 量词 ， 正 如 扩展 投影 使 得 关系 
代数 得 以 支持 存在 量词 一 样 。 进 一 步 的 解释 请 见 第 8 章 。) 

然而 ， 我 们 需要 指出 的 是 ， 用 关系 比较 的 方式 来 表达 查询 的 本 来 思想 通常 更 加 通俗 易 懂 
(上 一 个 例子 就 是 这 样 )。 例 如 : 























图 7-8 除 举例 


S WHERE ( ( SP RENAME S# RS X ) WHERE X = S# ) { Pt# } = P { P#} 
这 个 表达 式 用 来 查找 那些 提供 了 所 有 零件 的 供应 商 。 下 面 对 它 作 一 些 必要 的 解释 : 
1) 对 于 某 一 个 供应 商 ， 这 个 表达 式 
( ( SP RENAME S# RS X ) WHERE X = S# ) { P# } 
产生 一 个 零件 号 的 集合 ， 这 些 零 件 都 是 由 这 个 供应 商 所 供应 
2) 这 个 零件 号 的 集合 接 下 来 与 包 千 所 有 举人 号 的 集合 | 比较 。 
3) 当 且 仅 当 两 个 集合 完全 相等 时 ， 其 对 应 的 供应 商 便 是 结果 之 一 。 
下 面 再 与 之 对 应 地 使 用 DIVIDEBY 来 解答 : 


S JOIN ( S { S# } DIVIDEBY P { P# } PER SP { S#, P# } ) 


你 也 许 能 够 明显 感觉 出 ， 使 用 关系 比较 的 方式 来 处 理 要 简单 得 多 。 事 实 上 ， 如 果 关 系 模型 首先 考 
虑 的 是 关系 比较 的 方式 实际 上 并 非 如 此 ， 那 么 是 否 还 需要 定义 DIVIDEBY 便 值得 怀疑 了 。 
7.5 举例 

本 节 提 供 了 用 在 查询 中 的 有 关 关 系 代数 表示 的 一 些 例子 。 建 议 读 者 对 照 图 3-8 中 的 数据 检验 
这 些 例子 。 

例 7.5.1 求 提供 零件 P2 的 供应 商 名 称 

( ( SP JOIN S ) WHERE P# = P# ('P2') ) { SNAME } 

解释 : 首先 构造 关系 SP 和 S 在 供应 商号 码 上 的 自然 连接 ， 从 概念 上 说 ， 它 扩展 了 每 个 SP 


元 组 相应 的 供应 商 信息 ( 即 SNAME 、STATUS 和 CITY 的 值 ) 。 随 后 这 个 连接 以 零件 P2 为 条 件 
进行 了 选择 。 最 后 选择 在 SNAME 上 做 了 投影 。 结 果 中 只 有 SNAME 这 一 个 属性 。 


例 7. 5.2 求 提供 至 少 一 个 红色 零件 的 供应 商 名称 


,( { (PP WHERE COLOR = CoroR ('Red') 
OIR gb) b#l} JOINS ) { SNAME ) 
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结果 唯一 的 属性 还 是 SNAME。 
下 面 给 出 对 同一 个 查询 的 不 同 的 表述 : 


( ( (了 P WHERE COLOR = COLOR ('Red') ) { P# } 
JOIN SP ) JOIN § ) { SNAME } 


这 个 例子 说 明了 一 个 重要 的 事实 : 对 同一 个 查询 经 常 有 不 同 的 表述 。 关 于 这 一 点 在 第 18 章 
还 有 讨论 。 
例 7.5.3 求 提供 所 有 零件 的 供应 商 名 称 


( (Ss { S# } DIVIDEBY P { P# } PER SP { S#, P# } ) 
JOIN S ) { SNAME } 
或 者 
( S WHERE 


( ( SP RENAME S# RS X ) WHERE X = S# ) { P#}=P{P#}) 
{ SNAME } 


其 结果 还 是 只 有 一 个 属性 : SNAME。 
例 7.5.4 求 至 少 提供 了 S2 提供 的 所 有 零件 的 供应 商号 码 


S { S# } DIVIDEBY ( SP WHERE S# = S# ('S2') ) { P# } 
PER SP { S#, P# } 


结果 只 有 一 个 属性 : S#。 


例 7.5.5 求 住 在 同一 个 城市 的 供应 商 的 号 码 对 ( 若 两 个 供应 商 住 在 同一 城市 ， 则 它们 的 号 
码 是 一 对 ) 
( ( (SRENAME S# AS SA ) { SA, CITY } JOIN 
( S RENAME S# RS SB ) { SB, CITY } ) 
WHERE SA < SB ) { SA, SB } 
结果 包含 两 个 属性 : SA 和 SB ( 当然， 只 改 掉 两 个 S# 属 性 之 一 的 名 称 就 足够 了 ; 这 里 两 者 
都 改 是 为 了 对 称 ) 。 注 意 ， 我 们 假设 在 类 型 S# 上 已 经 定义 了 操作 符 “<”。 条 件 SA < SB 具有 两 
重 作 用 : 
s 它 排除 了 形式 为 (x，x) 的 供应 商号 码 对 ; 
s 它 保证 了 (x, y) 和 (y, x) 不 会 同时 出 现 。 
下 面 给 出 这 个 查询 的 另 一 种 表示 ， 目 的 是 为 了 说 明 如 何 利用 WITH 简化 查询 表达 式 。 
WITH ( S RENAME S# RS SA ) { SR，CITY } AS Tl1, 
( S RENAME S# AS SB ) { SB, CITY } AS T2, 
T1 JOIN T2 AS T3, 
T3 WHERE SA < SB RS T4 : 
T4 { SA, SB } 
有 了 WITH， 我 们 就 可 以 考虑 那些 分 步 表 述 ( step-at-a-time) 的 复杂 表达 方式 了 ; 但 它 并 不 
违反 关系 代数 的 非 过 程 化 特性 。 在 下 一 个 例子 中 将 对 这 方面 做 详细 的 阐述 。 


例 7.5.6 求 不 提供 零件 P2 的 供应 商 名 称 


( (Ss { S# } MINUS ( SP WHERE P# = P# ('P2'} } { S# } ) 
JOIN S ) { SNAME } 





OG 事实 上 , 第 5 章 5.5 节 里 定义 DIST 时 已 经 使 用 过 WITH 的 标量 形式 ， 而 在 第 6 章 的 6.5 节 里 讨论 扩展 的 操作 符 
UPDATE 时 ， 也 已 向 读者 展示 过 它 的 关系 形式 。 
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其 结果 只 有 一 个 叫做 SNAME 的 属性 。 
正 像 前 面 所 说 的 ， 我 们 要 对 这 个 例子 进行 详细 的 阐述 。 迅 速 判 断 怎样 把 一 个 给 定 的 查询 表述 
成 一 个 周 套 表达 式 并 不 总 是 很 简单 的 ， 也 没有 必要 如 此 做 。 用 分 步 表 述 来 描述 本 例如 下 


WITH S { S# } RS T1, 
SP WHERE P# = 2 ('P2') AS T2, 
T2 { S# } AS 
T1 MINUS T3 AS Da, 
T4 JOIN S AS T5， 
T5 { SNAME } RS T6 : 
T6 
T6 代表 想 要 的 结果 。 解 释 : WITH 子 名 引进 名 称 一 一 例如 形 如 Ti 的 名 称 一 一 对 包含 子 句 的 声 
明 假 定 是 局 部 意义 上 的 。 如 果 系 统 支持 惰性 计算 (例如 像 PRTV 系统 所 做 的 ，[7.9] ) ， 那 么 把 整个 
查询 分 解 为 这 种 形式 的 一 连 串 的 步骤 必须 不 能 产生 不 良 影响 。 相 反 ， 查 询 可 以 按 下 面 来 进行 : 
。 冒号 前 面 的 表达 式 系 统 不 能 直接 赋值 一 一 系统 所 做 的 只 是 记 住 它们 和 被 AS 子 句 引进 的 名 称 。 
se 冒号 后 面 的 表达 式 代 表 了 查询 的 最 终结 果 (在 这 个 例子 中 ， 表 达 式 只 是 “T6”) 。 当 运行 
到 这 里 时 ， 系 统 就 会 计算 出 想 要 的 值 ( 即 T6 的 值 ) 。 
se 为 了 计算 T6 ( 它 是 TS 在 SNAME 上 的 投影 ) ， 系 统 需 要 首先 计算 T5; 为 了 计算 T5 (T5 
是 T4 和 S 的 连接 ) ， 系 统 需 先 计算 T4; 等 等 。 换 句 话 说 ， 系 统 不 得 不 计算 原先 的 租 套 表 
达 式 ， 就 像 用 户 在 前 面 写 了 很 套 表达 式 一 样 。 
关于 计算 退 套 表达 式 这 个 问题 ， 在 下 一 节 会 有 一 个 简要 的 讨论 ， 在 第 18 章 也 有 进一步 的 
阐述 。 
7.6 关系 代数 的 作用 


总 结 一 下 本 章 中 目前 所 讲 的 内 容 : 对 关系 代数 作 了 定义 ， 它 是 一 个 关系 操作 的 集合 。 涉 及 的 
操作 有 并 、 交 、 差 、 积 、 选 择 、 投 影 、 连 接 和 除 ， 还 有 一 个 给 属性 改名 的 操作 符 RENAME ( 除 
了 RENAME， 这 些 基 本 上 就 是 Codd 在 [7.1] 中 最 初 定义 的 集合 ) 。 我 们 还 提供 了 这 些 操作 的 
语法 ， 利 用 这 些 语 法 给 出 了 许多 例子 和 说 明 。 

正如 所 讨论 的 ，Codd 的 8 个 操作 符 不 是 最 小 的 集合 (也 从 未 打算 成 为 一 个 最 小 集合 ) ， 因 为 
它们 中 的 某 几 个 并 不 是 基本 的 一 一 即 可 以 用 其 他 的 操作 符 来 定义 。 例 如 ， 连 接 、 交 和 除 这 三 个 操 
作 符 可 以 用 其 余 的 5 个 来 定义 (参看 习题 7.6) ， 因 此 删除 它们 也 不 会 委 失 任何 功能 。 剩 下 的 5 
个 (选择 、 投 影 、 积 、 并 和 差 ) 中 的 任意 一 个 都 不 能 用 其 他 4 个 来 定义 ， 因 此 称 它 们 为 一 个 基 
本 的 或 最 小 的 集合 〈 请 注意 ， 当 然 不 仅 有 这 一 个 最 小 集合 )”。 实 际 上 ， 其 余 的 3 个 操作 符 〈 特 
别 是 连接 ) 是 非常 有 用 的 ， 一 个 好 的 系统 可 以 直接 支持 它们 。 

现在 需要 澄清 重要 的 一 点 一 一 尽管 没有 明确 说 明 ， 但 本 章 的 内 容 到 目前 为 止 好 像 显示 了 代数 
的 主要 作用 只 是 数据 存 取 。 事 实 上 并 非 如 此 。 代 数 的 基本 目的 是 书写 关系 表达 式 。 那 些 表 达 式 有 
各 种 用 途 ， 当 然 也 包括 存 取 ， 但 并 不 只 限于 此 。 下 面 的 功能 (并 不 限于 这 些 ) 显示 了 这 些 表达 
式 的 一 些 可 能 应 用 情形 : 

a 定义 检索 的 范围 一 一 即 定义 在 某 检索 操作 中 将 获得 的 数据 (已 经 详细 讨论 过 了 ); 

a 定义 修改 的 范围 一 一 即 定义 在 修改 操作 中 被 插入 、 改 变 或 删除 的 数据 (参考 第 6 章 ) ; 

a 定义 完整 性 约束 一 一 即 定义 数据 库 必须 满足 的 一 些 约束 (参考 第 9 章 ) ; 

a 定义 派生 的 关系 变量 一 一 即 定 义 包含 在 视图 或 映射 中 的 数据 (参考 第 10 章 ) ; 

se 定义 一 致 性 需求 一 一 即 定义 在 并 发 控制 操作 中 的 数据 (参考 第 16 章 ); 





@@ ”对 于 这 个 说 法 我 们 需要 一 些 特定 的 限制 。 首 先 ， 我 们 可 以 看 到 ， 积 是 一 种 特殊 的 连接 ， 因 此 可 以 对 -一些 特定 的 
集合 使 用 连接 来 代替 积 ; 其 次 ， 我 们 有 必要 将 RENAME 包括 进来 ， 这 是 因为 我 们 的 代数 〈 不 像 文 献 [7.1] 所 
说 的 那样 ) 依赖 于 属性 的 名 称 ， 而 不 是 属性 的 位 置 最 后 ， 文 献 [3.3] 介绍 了 关系 代数 的 一 种 “简化 的 指令 
集 ” 一 一 称 为 4， 它 只 包含 两 个 基本 操作 remove 和 nor， 就 能 够 表示 Codd 的 基本 代数 (以 及 RENAME 和 其 他 
几 个 有 用 的 操作 ) 的 所 有 功能 。 
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a 定义 安全 性 约束 一 一 即 定义 被 授予 某 种 权限 的 数据 (参考 第 17 章 ) 。 

实际 上 ， 这 些 表达 式 是 对 用 户 意 图 的 高 层次 的 、 符 号 式 的 表述 (例如 针对 一 些 特殊 的 查 
询 )。 正 因为 它们 是 高 层次 和 符号 形式 的 ， 它 们 可 以 根据 一 系列 高 层次 和 符号 形式 的 转换 规则 来 
操作 。 例 如 ， 表 达 式 


( ( SP JOIN S ) WHERE P# = P# ('P2') ) { SNAME } 


( 见 例 子 7. 5. 1 一 一 “提供 零件 P2 的 供应 商 名 称 ”) 可 以 被 转换 为 另 一 个 等 价 的 表达 式 ， 并 
且 效 率 可 能 更 高 ， 即 


( ( SP WHERE P# = P# ('P2') ) JOIN S ) { SNAME } 


(练习 ; 从 何 种 意义 上 说 第 二 种 表述 效率 可 能 更 高 ? 为何 是 “可 能 ”?) 

代数 因此 可 以 作为 优化 的 基础 〈 如 果 想 复习 优化 的 概念 ， 可 回顾 3.5 节 )。 即 使 用 户 使 用 了 
上 面 的 第 一 种 表达 式 ， 在 执行 前 ， 优 化 系统 会 把 它 转换 为 第 二 种 形式 〈 理 想 的 情况 是 ， 一 个 给 
定 查询 的 执行 不 应 依赖 于 用 户 提交 的 方式 ) 。 在 第 18 章 中 将 有 进一步 讨论 。 

注意 : 代数 由 于 它 的 基本 特征 而 经 常 被 用 作 衡量 一 种 语言 表达 能 力 的 尺度 。 一 种 语言 基本 上 
可 以 说 是 关系 完备 [7. 1] 的 ， 当 它 至 少 拥有 代数 的 作用 一 一 即 当 它 的 表达 式 允 许 通过 代数 〈 前 
几 节 中 描述 的 基本 的 代数 ) 的 形式 来 定义 每 一 个 关系 。 下 一 章 将 详细 讨论 关系 完备 的 概念 。 


7.7 深入 讨论 


这 一 节 介绍 8 个 基本 操作 符 的 其 他 一 些 性 质 。 
1. 结合 律 和 交换 律 
不 难看 出 ， 并 操作 具有 结合 性 一 一 即 对 于 任意 的 相同 类 型 的 关系 a，,b，c， 下 列表 达 式 


(a UNION b ) UNION c 


和 


a UNION ( b UNION c ) 


在 逻辑 上 是 等 价 的 。 为 了 方便 ， 我 们 允许 并 的 结果 不 带 任何 括号 ， 所 以 ， 前 面 的 表达 式 可 以 简化 为 


a UNION b UNION C 


结合 律 对 于 交 、 积 和 连接 也 同样 适用 (但 是 减 除 外 ) 。 注 意 : 正 是 由 于 它 的 这 个 特性 ， 也 许 
在 现实 中 ， 前 缀 表示 法 例如 UNION(a,b,c)， 比 中 级 表示 法 (Tutorial D 中 就 是 使 用 这 种 方式 ) 
更 加 合适 。 但 是 本 书 中 坚持 使 用 中 缀 表示 法 。 

并 、 交 、 积 和 连接 ( 减 除外 ) 也 都 具有 交换 性 一 一 即 表达 式 


a UNION b 


和 


b UNION a 


在 逻辑 上 也 是 等 价 的 。 交 、 积 和 连接 同样 如 此 。 

我 们 将 在 第 18 章 重新 讨论 与 结合 性 和 交换 性 有 关 的 问题 。 顺 便 提 一 下 ， 对 于 笛 卡 尔 积 ， 其 
集合 论 形式 既 不 具有 交换 性 也 不 具有 结合 性 ， 但 是 〈 正 如 我 们 看 到 的 一 样 ) 它 的 关系 形式 却 具 
有 这 两 种 性 质 。 

2. 一 些 恒 等 式 

在 这 个 小 节 ， 我 们 列 出 了 一 些 很 重要 的 恒等式 ,但 不 作 深入 的 讨论 。 在 下 列 式 子 中 r 可 表示 
任意 的 关系 ，empty 表示 与 + 具有 相同 类 型 的 空 的 关系 。 


易 WHERE TRUE 三 r (同一 选择 ) 
rr WHERE FALSE 三 empty 
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Br| X,Y,..., 2| 圭 r+ (如 果 义 ，Y，... ，Z 是 关系 + (单位 投影 ) 的 所 有 属性 ) 

台 如 果 r= empty 那么 ri|| = TABLE_PUM， 否 则 r{| = TABLE_DEE (空投 影 ) 

多 r JOINI rrUNIONIr= rINTERSECTIr 三 Ir 

喇 r JOIN TABLE_DEE = TABLE_DEE JOIN r = r+ (DEE 是 连接 的 单位 元 ， 正 如 普通 的 数学 运算 中 , 0 是 加 法 的 单 
位 元 ，! 是 乘法 的 单位 元 ) 

加 rr TIMES TABLE_DEE = TABLE_DEE TIMES r = r (这 个 恒等式 是 上 一 个 等 式 的 一 种 特例 ) 

人 rr UNION empty 二 r MINUS empty 专 r 

empty INTERSECT r 三 empty MINUS r = empty 


3. 一 些 普遍 性 
连接 、 并 和 交 最 初 定义 的 时 候 都 是 作为 二 元 操作 符 〈 即 操作 数 需要 两 个 关系 )”;， 但是， 我 们 
知道 ， 它 们 都 可 以 推广 到 元 的 情况 ， 其 中 为 任意 大 于 1 的 数 。 但 是 ， 对 于 等 于 1, 或 是 n 等 
于 0 的 情况 呢 ? 现实 〈 至 少 是 从 概念 层次 上 ) 却 是 需要 在 只 有 一 个 关系 或 者 没有 关系 的 情况 下 能 够 
执行 “连接 ” 、“ 并 ”、“ 交 ”等 操作 (甚至 Tutorial D 也 没有 在 语法 上 支持 这 些 操作 ) 。 假 设 * 是 一 
个 关系 集合 〈 当 并 和 交 时 ， 所 有 关系 要 求 具有 相同 的 类 型 RT) ， 那 么 它们 的 定义 如 下 : 
am 如果 集合 5 只 包含 一 个 关系 r>， 则 在 3 上 所 做 的 连接 、 并 和 交 操 作 的 结果 如 同 作用 在 单个 
关系 上 上 一 样 。 
如 果 集 合 5 不 含有 任何 关系 ， 那么 
。 在 S 上 的 连接 操作 的 结果 ， 则 定 为 TABLE_DEE (连接 的 单位 元 素 )。 
。 在 S$ 上 的 并 操作 的 结果 ， 则 定 为 一 个 RT 类 型 的 空 关系 。 
。 在 S 上 的 交 操作 的 结果 ， 则 定 为 一 个 RT 类 型 的 全 体 表 
RT 的 表 头 要 求 的 元 组 


7.8 附加 的 操作 符 


自从 Codd 定义 了 他 的 8 个 操作 符 以 来 ， 很 多 人 都 提出 了 新 的 代数 操作 符 。 这 一 节 较 为 详细 
地 分 析 其 中 的 几 个 操作 符 一 一 半 连 接 (SEMUOIN) 、 半 减 (SEMIMINUS) 、 扩 展 〈EXTEND)、 
合计 (SUMMARIZE) 和 传递 闭 包 (TCLOSE) 等 。 根 据 Tutorial D 的 语法 ， 这 些 操作 符 包含 
<nonproject > 的 5 个 新 形式 ， 说 明 如 下 : 

2 crelation exp> SEMIJOIN <relation exp> 

Sem MNS lation exp> SEMIMINUS <relation exp> 


<extend> 
3 二 EXTEND <relation exp> ADD ( <extend add commalist> ) 


如 果 逗 号 列表 仅仅 包含 有 一 个 < extend add > ， 那 么 圆 括号 可 以 省 略 。 


<extend add> 
: := <exp> AS <attribute name> 


该 表 包 含 所 有 满足 关系 类 型 





<summarize> 
:= SUMMARIZE <relation exp> PER <relation exp> 
ADD ( <summarize add commalist> ) 


如 果 逗 号 列表 仅仅 包含 有 一 个 < summarize add > ， 那 么 圆 括号 可 以 省 略 。 


<summarize add> 
::= <summary type> [ ( <scalar exp> ) ] 
AS <attribute name> 
<summary type> 
::= COUNT SUM AVG | MAX | MIN | ALL | ANY 
| couNTD | SUMD | AvGD | ... 


<tclose> 
: := TCLOSE <relation exp> 





QO 碱 也 是 二 元 的 ; 但 是 ， 选 择 和 投影 都 是 一 元 操作 符 。 
”我 们 注意 到 ， 在 其 他 文献 中 ， 全 体 表 《universal relation》 这 个 词 被 当 作 别 的 意思 来 使 用 。 请 看 文献 【13. 20] 。 





120 ”名 二 部 分 光头 再 型 


在 前 面 的 BNF 产生 式 规 则 中 提 到 的 各 个 < relation exp > 必须 不 是 < nonproject > 。 

1. 半 连 接 

假定 a、b、X、Y 了 和 2Z 如 7.4 节 的 “连接 ”小 节 中 所 示 。 于 是 a 和 4b (按照 先 a 后 5 次序 ) 
的 半 连 接 (semijoin) a SEMIJOIN b 一 一 可 以 等 价 地 定义 为 


(a JOINb) {X,Y} 


换 句 话说 ，a 和 上 4b 的 半 连 接 就 是 a 和 4 的 连接 在 a 的 属性 上 的 投影 。 宽 泛 地 讲 ， 操 作 结 果 的 主体 
就 是 在 b 中 有 对 应 值 的 a 的 元 组 。 
示例 : 求 提供 零件 P2 的 供应 商 的 S#、SNAME、STATUS 和 CITY。 


S SEMIJOIN ( SP WHERE P# = P# ('P2') ) 


在 前 面 我 们 已 经 注意 到 ， 现 实 中 很 多 用 到 连接 的 查询 实际 上 就 隐 含 着 半 连 接 一 一 这 意味 在 实 
际 应 用 中 对 半 连 接 有 着 极 大 的 需求 。 半 减 (也 叫 半 差 ) 操作 也 是 类 似 的 (请 看 下 一 个 小 节 )。 

2. 半 差 

a 和 4b 的 半 差 (semidifference) (按照 先 a 后 b 次序)，a SEMIDIFFERENCE b， 可 以 等 价 地 
定义 为 

a MINUS ( a SEMIJOIN b j) 


宽泛 地 讲 ， 操 作 结 果 的 主体 是 在 b 中 没有 对 应 值 的 a 的 元 组 。 
示例 : 求 不 提供 零件 P2 的 供应 商 的 S#、SNAME、STATUS 和 CITY。 


S SEMIMINUS ( SP WHERE P# = P# ('P2') ) 


3. 扩展 

读者 可 能 已 经 注意 到 ， 到 目前 为 止 所 描述 的 代数 还 没有 计算 的 能 力 。 然 而 ， 在 实际 中 这 样 的 
能 力 是 明显 需要 的 。 例 如 ， 我 们 可 能 想得到 形 如 WEIGHT * 454 的 算术 表达 式 的 值 ， 或 者 遇 到 
WHERE 子 句 中 的 这 样 一 个 值 〈 给 定 的 零件 的 重量 是 以 磅 为 单位 的 ; 表达 式 WEIGHT * 454 会 把 
它 转 换 为 克 ”) 。 扩 展 (extend) 操作 的 目的 是 支持 这 样 的 能 力 。 更 精确 地 说 ，EXTEND 接受 一 
个 关系 ， 然 后 返回 一 个 关系 ， 返 回 的 关系 除了 新 增 一 个 属性 外 ， 其 余 与 给 定 关 系 完 全 相同 ， 新 增 
属性 的 值 通过 计算 指定 操作 表达 式 而 获得 。 例 如 ， 可 以 写 : 


EXTEND P ADD ( WEIGHT * 454 ) AS GMWT 


请 注意 ， 这 是 一 个 表达 式 而 不 是 一 个 命令 或 者 声明 ， 因 此 它 可 以 风 套 在 其 他 表达 式 中 。 它 将 
产生 一 个 关系 ， 此 关系 的 表 头 除 新 增 一 个 名 叫 GMWT 的 属性 外 ， 其 余 和 了 相同 。 除 了 根据 特定 
算术 表达 式 得 到 的 GMWT 之 外 ， 关 系 的 每 个 元 组 与 P 的 元 组 相同 。 参 看 图 7-9。 

重点 : 请 注意 ， 表 达 式 EXTEND 并 没有 改变 
数据 库 中 的 零件 关系 变量 ; 它 只 是 一 个 表达 式 ， | 村 PRaME|coLOR|wEIGHr|crrY | ww? 
就 像 其 他 表达 式 一 样 只 是 指示 了 一 个 结果 一 一 在 
本 例 中 恰巧 看 起 来 像 零件 关系 变量 的 一 个 当前 值 。 
( 换 旬 话说 ，EXTEND 不 是 SQL 的 ALTER TA- 
BLE...ADD COLUMN 语句 在 关系 代数 中 的 相应 








19.0|London | 8626. 


操作 )。 图 7-9 一 个 关于 EXTEND 的 例子 
现在 ,我 们 可 以 在 投影 和 选择 等 操作 中 使 用 
GMWT。 例如 : 
{ ( EXTEND P ADD ( WEIGHT * 454 ) AS GMWT ) 
WHERE GMWT > WEIGHT ( 10000.0 ) ) { ALL BUT GMWT } 





”假定 在 整数 和 重量 之 间 的 乘 ( * ) 是 一 个 合法 的 操作 符 。 这 样 的 操作 的 结果 是 什么 呢 ? 





莫 7 苹 关系 代 才 121 


注意 ; 当然 ， 在 WHERE 子 句 应 该 可 以 直接 使 用 更 友好 的 语言 来 描述 计算 表达 式 ， 比 如 : 


Pp WHERE ( WEIGHT * 454 ) > WEIGHT ( 10000.0 ) 


(请 看 7.4 节 中 关于 选择 的 讨论 ) ， 但 是 这 样 的 特征 实际 上 是 语法 的 友好 性 。 
一 般 而 言 ， 扩 展 表达 式 


EXTEND a RDD exp AS 2 


的 结果 是 一 个 关系 ， 定 义 如 下 : 

s 其 表 头 等 于 关系 a 的 表 头 扩 加 了 属性 Z; 

其 主体 包含 所 有 的 元 组 !:，! 是 在 a 的 元 组 上 扩充 了 新 属性 Z 而 得 到 的 元 组 ，Z 属性 的 值 通 

过 计算 相应 的 a 元 组 的 exp 表达 式 而 得 到 。 

关系 a 不 能 含有 名 为 Z 的 属性 ， 并 且 exp 不 能 涉及 Z; 可 以 看 出 结果 的 基数 等 于 a 的 基数 ， 
结果 的 度 等 于 a 的 度 加 1。 结果 中 Z 的 类 型 是 exp 的 类 型 。 

下 面 又 是 几 个 例子 : 

1) EXTEND S ADD 'Supplier' AS TAG 

这 个 表达 式 利用 字符 串 “Supplier” 标 记 了 关系 变量 S 当前 值 的 每 个 元 组 (文字 是 计算 表达 
式 的 一 个 特例 ， 而 文字 更 一 般 地 是 一 个 选择 子 调 用 ) 。 


2) EXTEND ( P JOIN SP ) ADD ( WEIGHT * QTY ) AS SHIPWT 


本 例 是 对 一 个 关系 表达 式 的 扩展 ， 这 比 一 个 简单 的 关系 变量 更 为 复杂 。 


3) ( EXTEND S ADD CITY RS SCITY ) { ALL BUT CITY } 
形 如 CITY 的 一 个 属性 名 称 也 是 合法 的 计算 表达 式 。 这 个 例子 等 价 于 


S RENAME CITY AS SCITY 


换 句 话说 ，RENAME 不 是 最 基本 的 操作 一 一 它 可 以 用 EXTEND (或 投影 ) 来 定义 。 当 然 ， 
由 于 使 用 方便 的 缘故 ， 我 们 并 不 想 放弃 所 熟悉 的 RENAME 操作 符 ， 但 它 只 是 一 个 捷径 。 


4) EXTEND P ADD ( WEIGHT * 454 AS GMWT, WEIGHT * 16 AS O2ZWT ) 


这 是 多 扩展 的 例子 。 

5) EXTEND S 
ADD COUNT ( ( SP RENAME S# RS X ) WHERE X = S# ) 
AS NP 


这 个 表达 式 的 结果 在 图 7-10 中 显示 。 解 释 ; 
sa 对 于 给 定 的 供应 商 ， 表 达 式 


( ( SP RENAME S# AS X ) WHERE X = S# ) 


产生 了 该 供应 商 的 一 组 发 货 情况 。 . 

a 聚集 操作 符 COUNT 作用 于 发 货 元 组 的 集合 ， 返 回 相 应 的 基数 〈 当然 是 一 个 标量 值 ) 。 

结果 中 的 属性 NP 代表 供应 商 提供 的 零件 的 数量 ， 供 应 商 由 相应 的 S# 的 值 指定 。 特 别 注意 对 
应 于 供应 商 S5 的 NP 值 ; Ss 的 SP 元 组 的 集合 是 空 的 ， 因 此 
COUNT 返回 零 。 [(S#|SNAME | STATUS | CITY NP 

下 面 对 聚 集 操 作 符 作 一 下 说 明 。 一 般 地 讲 ， 聚 集 操 作 符 
的 目的 是 从 特定 关系 的 特定 属性 值 中 得 出 一 个 数字 。 典 型 的 
例子 是 COUNT、SUM、AVG、MAX、MIN、ALL 和 ANY。 |LSsLadans 30| Athens| 0 
在 Tutorial D 中 ， 一 个 聚集 操作 符 调 用 < agg op inv > (因为 _ 个 
它 返回 一 个 数字 ”所 以 是 < scalar exp > 的 一 个 特例 ) 采用 下 “图 -10 EXTENP 的 另 一 个 全 了 
面 的 一 般 形 式 : 


<agg op name> ( <relation exp> [，<attribute name> ] ) 


如 果 <agg op name > 是 COUNT ， 则 <attribute name > 是 无 关 的 ， 且 必须 省 略 掉 ; 否则 ， 当 
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且 仅 当 < relation exp > 是 一 个 单 目 的 关系 ，< attribute name > 才 被 省 略 掉 ， 在 这 种 情况 下 ， 
< relation ezp> 的 值 的 唯一 属性 假定 为 默认 值 。 下 面 是 两 个 例子 : 


SUM ( SP WHERE S# = 8# ('S1'), QTY ) 
SUM ( ( SP WHERE S# = S# ('S1') ) { QTY } ) 


注意 两 者 的 区 别 ， 第 一 个 得 出 供应 商 S1 的 所 有 发 货 数 量 的 总 计 ， 第 二 个 得 出 S1 的 所 有 不 间 
的 发 货 数 量 的 和 。 

如 果 一 个 聚集 操作 符 的 参数 恰好 是 一 个 空 集 ， 则 COUNT 返回 零 (就 像 所 看 到 的 ) ，SUM 也 
一 样 ;， MAX 和 MIN 分 别 返 回 相关 域 的 最 小 值 和 最 大 值 ; ALL 和 ANY 分 别 返 回 TURE 和 
FALSE; AVG 会 引起 一 个 例外 。 

4. 合计 

首先 说 明 这 里 讨论 的 SUMMARIZE 不 同 于 本 书 以 前 版 本 中 所 讲 的 ， 实际 上 ， 它 是 一 个 改进 
版 ， 它 克服 了 由 于 关系 空 值 所 引起 的 问题 。 

我 们 已 经 看 到 ，extend 操作 符 提 供 了 一 种 途径 ， 把 “水 平 ” (horizontal) 或 “ 行 方式 ” 
(row-wise) 计算 结合 进 了 关系 代数 。 合 计 (summarize) 操作 符 执行 类 似 的 功能 “垂直 ” 
(vertical ) 或 “ 列 方式 ”(column- wise) 计算 。 例 如 ， 表 达 式 


SUMMARIZE SP PER P { P# } ADD SUM ( QTY ) AS TOTQTY 


产生 了 一 个 表 头 为 | P#，TOTQTY | 的 关系 ， 它 对 应 于 投影 P { P#| 的 每 个 P# 值 有 一 个 元 组 ， 
内 含 P# 的 值 和 相应 的 合计 数量 ( 见 图 7-11) 。 换 言 之 ， 关 系 SP 从 概念 上 把 元 组 分 成 多 个 组 或 者 
集合 (每 个 P# 的 值 产生 一 个 集合 ) ， 然 后 ， 这 样 的 每 一 个 组 在 最 终结 果 中 产生 一 个 相应 的 元 组 。 


一 般 地 说 ， 表 达 式 [CT 
SUMMARIZE a PER b ADD summary AS 3 pl 
的 值 是 一 个 关系 ， 定 义 如 下 : 
a 首先 , b 必须 和 ae 的 某 些 投影 具有 相同 的 类 型 ; 即 忆 的 所 有 
属性 必须 都 是 a 的 属性 。 假 设 投影 的 属性 (对 5b 来 说 是 相同 
的 ) 是 41,A42,…,An。 图 7-11 关于 SUMMARIZE 
s 结果 的 表 头 包含 有 4b 的 表 头 ， 并 加 上 新 属性 Z。 的 一 个 例子 
s 结果 的 主体 包含 所 有 的 元 组 :， 其 中 1 是 经 过 扩展 的 5 的 一 个 
元 组 ,该 扩展 使 其 增加 了 新 属性 Z 上 的 一 个 值 。Z 的 新 值 是 通过 计算 a 元 组 上 的 合计 而 得 
到 的 ， 这 些 元 组 在 A1 ，A2，…，An 上 与 元 组 上 有 相同 的 值 (当然 ， 如 果 4 没有 元 组 和 + 
在 41，42，…，4n 上 有 相同 的 值 ， 则 合计 会 在 一 个 空 集合 上 操作 ) 。 
关系 b 不 能 有 名 为 Z 的 属性 ， 并 且 合 计 不 能 涉及 Z。 于 是 ， 结 果 和 b 有 相同 的 基数 ， 结 果 的 
度 等 于 4b 的 度 加 1。 结果 中 Z 的 类 型 和 合计 的 类 型 相同 。 
下 面 是 另 一 个 例子 : 


SUMMARIZE ( P JOIN SP ) PER P { CITY } ADD COUNT AS NSP 
其 结果 看 起 来 像 : 
ET 















Paris 6 


也 就 是 说 ， 结 果 对 应 于 每 个 城市 (London、Paris 和 Rome) 有 一 个 元 组 ， 显 示 了 每 个 城市 中 
存放 的 零件 的 数量 。 

要 点 : 

1) 值得 注意 的 是 ， 这 个 操作 符 的 定义 是 依赖 于 元 组 等 价 性 的 。 
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2) 我 们 的 语法 允许 多 重 SUMMARIZE。 例 如 : 


SUMMARIZE SP PER P { P# } ADD ( SUM ( QTY ) AS TOTOTY， 
AVG ( QTY ) AS AVGOQOTY ) 


3) < summarize > 的 一 般 格 式 如 下 : 


SUMMARIZE <relation exp> PER <relation exp> 
ADD ( <summarize add commalist> ) 


其 中 每 个 < summarize add > 形 为 : 


<summary type> [ ( <scalar exp> ) ] AS <attribute name> 


典型 的 < summary type > 有 COUNT、SUM、AVG、MAX、MIN、ALL、ANY、COUNTD、 
SUMD 和 AVGD。 在 COUNTD、SUMD 和 AVGD 中 ,，“D” (distinct) 的 意思 是 “执行 summary 
之 前 去 掉 多 余 的 重复 值 ” 。 < scalar exp > 可 以 涉及 紧 跟 在 SUMMARIZE 后 的 < relation exp > 所 表 
示 的 关系 的 属性 。 注 意 : <scalar exp > (在 圆 括号 中 ) 仅 当 < summary type > 是 COUNT 时 才能 
被 省 略 。 

顺便 提 一 下 ， 请 注意 < summarize add > 不同 于 <agg op inv > 。 < agg op inv > 是 一 个 标量 表 
达 式 ， 只 要 是 标量 类 型 (特殊 情况 下 为 一 个 标量 字 串 ) 可 以 出 现 的 地 方 ， 它 就 能 出 现 。 相 反 ， 
< summarize add > 只 是 一 个 SUMMARIZE 的 操作 对 象 ， 却 不 是 标量 表达 式 。 脱 离开 SUMMA- 
RIZE 的 上 下 文 环境 ， 它 就 失去 意义 ,实际 上 根本 不 能 出 现 。 

4) 读者 可 能 已 意识 到 ，SUMMARIZE 不 是 一 个 基本 操作 符 一 一 它 可 通过 EXTEND 来 表达 。 
例如 ， 表 达 式 : 


SUMMARIZE SP PER S { S# } ADD COUNT AS NP 


是 下 面 表 达 式 的 简写 : 
( EXTEND S { S# } 
RDD ( ( ( SP RENAME S# RS X ) WHERE X = S# ) RS Y， 
couNT (YY )ASMNP)) 
{ S#, NP } 
或 等 价 于 : 


WITH LS { S# } ) RS Ti, 
( SP RENAME S# AS X ) AS T2， 
( EXTEND T1 ADD ( T2 WHERE X = S# ) AS Y ) AS 7T3, 
( EXTEND T3 ADD COUNT ( Y ) AS NP ) AS T4 : 
T4 { S#, NP } 
顺便 提 一 下 ， 属 性 了 在 这 里 是 关系 值 ， 详 细 的 内 容 请 参看 6.4 节 。 
5) 下 面 是 另外 一 个 例子 


SUMMARIZE S PER S { CITY } ADD AVG ( STATUS ) AS AVG_STATUS 

在 这 里 ，PER 关系 并 不 仅仅 与 将 要 合计 的 关系 的 某 些 投 影 具 有 相同 类 型 ， 它 实际 上 就 是 那 
样 的 一 个 投影 。 在 这 个 例子 中 ， 我 们 允许 如 下 的 缩写 : 

SUMMARIZE S BY { CITY } ADD AVG ( STATUS ) AS AVG _ STATUS 
(我 们 用 < attribuie name commalist > 替代 < relation exp > ， 其 中 命名 的 属性 必须 全 是 正在 合计 的 


关系 的 属性 。) 
6) 考虑 下 面 的 例子 : 


SUMMARIZE SP PER SP { } ADD SUM ( QTY ) RS GRANDTOTAL 


根据 上 面 的 意思 ， 我 们 可 以 把 这 个 表达 式 重 写 为 ; 
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SUMMARIZE SP BY { } ADD SUM ( QTY ) AS GRANDTOTAL 


无 论 用 哪 一 种 方式 ,分 组 和 合计 所 作用 的 关系 根本 就 没有 属性 。 假 设 sp 是 关系 变量 SP 的 当 
前 值 ， 并 且 sp 至 少 有 一 个 元 组 。 于 是 对 应 于 没有 属性 的 情况 ，sp 的 所 有 元 组 有 相同 的 值 ( 即 0 
元 组 ) 。 因 此 只 有 一 组 ， 并 且 在 结果 中 只 有 一 个 元 组 〈 也 就 是 说 ， 聚 集 计 算 在 整个 关系 sp 上 运行 
了 一 次 )。SUMMARIZE 产生 的 关系 只 有 一 个 属性 和 一 个 元 组 ; 属性 叫 作 总 计 (GRANDTO- 
TAL) ， 结 果 元 组 中 唯一 的 标量 值 是 原 关系 sp 中 所 有 QTY 值 的 和 。 

另 一 方面 ， 如 果 关 系 sp 根本 就 没有 元 组 ， 那 么 就 没有 分 成 的 组 ， 也 就 没有 结果 元 组 〈 即 结 
果 关 系 是 空 的 ) 。 相 反 ， 接 下 来 的 表达 式 : 


SUMMARIZE SP PER TABLE DEE ADD SUM ( QTY ) AS GRANDTOTAL 


即使 sp 是 空 的 也 会 运行 ( 即 它 会 产生 零 这 个 “正确 ”结果 )。 更 精确 地 讲 ， 它 会 返回 只 有 一 个 
名 叫 总 计 的 属性 的 关系 ， 辣 时 关系 只 有 一 个 在 属性 总 计 上 值 为 零 的 元 组 。 因 此 我 们 建议 应 该 从 
SUMMARIZE 中 删 去 PER 子 句 ， 如 下 所 示 : 


SUMMARIZE SP ADD SUM ( QTY ) AS GRANDTOTAL 
省 略 PER 子 句 等 价 于 指定 子 句 PER TABLE_DEE。 
5.、 传递 闭 包 


“Tclose” 代 表 传递 闭 包 (transitive closure) 。 这 里 提 到 它 主要 是 为 了 完备 性 ， 本 章 不 作 深 入 
的 讨论 。 然 而 接 下 来 我 们 至 少 应 该 给 它 下 个 定义 。 设 a 是 包含 属性 X 和 了 的 两 目 关 系 ， 其 中 X、 
Y 具有 相同 的 类 型 T。 于 是 a 的 传递 闲 包 TCLOSE a 是 一 个 关系 a* ，a' 的 表 头 和 a 的 相同 ， 主 体 
是 a 的 主体 的 一 个 超 集 ， 定 义 如 下 ， 当 且 仅 当 元 组 i 和 Xx, 了 y} 出 现在 a 中， 或 存在 值 z1 ,2，…,zn 
(类 型 都 是 T) 的 一 个 序列 ， 使 元 组 和 XXx,Y 了 zij {Xzl,Y 1 、...、 {xX zy 都 出 现在 a 中 ， 元 组 
{Xx,，Yy| 才 属 于 a (也 就 是 说 ， 只 有 当 关 系 a 所 表示 的 图 中 存在 从 节点 x 到 节点 y 的 一 条 路 
径 时 ， 元 组 (x，y) 才 会 出 现在 a' 中 ， 这 只 是 不 严格 的 说 法 。 注 意 ，2 ' 的 主体 必须 包含 a 的 主 
体 ， 把 它 作为 一 个 子 集 ) 。 

第 24 章 会 有 关于 传递 闭 包 的 更 详细 的 讨论 。 


7.9 分 组 与 解 组 


因为 关系 的 属性 值 可 以 是 关系 值 ， 这 就 需要 增加 关系 型 操作 ， 使 得 含有 这 种 属性 的 关系 和 不 
含有 这 种 属性 的 关系 之 间 可 以 互相 转换 ， 分 别称 之 为 分 组 (group) 和 解 组 (ungroup) 。 首 先 给 
出 一 个 关于 分 组 的 例子 : 


SP GROUP { P#, QTY } AS PO 


给 定 那些 常用 的 样本 数据 ， 此 表达 式 产生 的 结果 如 图 7- 12 所 示 。 注 意 : 下 面 的 解释 有 些 抽象 
(很 遗憾 ， 只 能 这 样 了 ) ， 参 照 图 例 去 看 解释 也 许 会 有 所 帮助 。 
基本 表达 式 


SP GROUP { P#, QTY } AS PQ 


可 以 读 作 “group SP by S#” ， 因 为 S# 是 唯一 没有 在 GROUP 子 句 中 提 到 的 属性 。 结 果 是 定义 如 下 
的 一 个 关系 。 首 先 ， 表 头 形式 为 ; 


{ S# S#，PQ RELATION { P# P#, QTY QTY } } 


换言之 ， 它 包含 了 一 个 值 为 关系 的 属性 PQ (其 中 PQ 含有 属性 P# 和 QTY) ， 并 且 包 含 除 SP 外 的 
所 有 其 他 属性 ( 当然 ， 除 SP 外 的 所 有 属性 只 有 S#) 。 其 次 ， 主 体 对 于 SP 中 每 个 不 同 的 S# 值 对 
应 一 个 元 组 。 主 体 中 的 每 个 元 组 包含 一 个 S# 值 (如 s) 和 一 个 PQ 值 (如 mg)， 其 中 PQ 的 值 如 
下 获得 : 
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® 每 个 SP 元 组 在 概念 上 被 一 个 元 组 (如 x) 代替 ， 此 元 组 中 的 P# 和 QTY 分 量 被 包装 成 一 个 元 
组 值 (tuple-value) 的 分 量 (如 y)。 
a 在 所 有 属性 S# 值 为 * 的 元 组 zx 中， 所 对 应 的 分 量 组 合成 了 一 个 关系 (pg)。 这 样 ， 一 个 
结果 元 组 就 产生 了 ， 其 中 S# 的 值 是 s，PQ 的 值 是 pg。 
其 全 部 结果 实际 上 已 经 在 图 7-12 中 显示 了 。 尤 其 应 当 注 意 的 是 ， 结 
果 中 没有 任何 一 个 元 组 包含 供应 商 S5 (这 是 因为 关系 变量 SP 中 也 没有 
涉及 供应 商 S5 ) 。 
可 以 看 出 ，R GROUP 141,42,…,4zj AS B 的 结果 的 度 等 于 nR - 
n+1， 其 中 nnR 为 R 的 度 。 
现在 看 一 下 解 组 。 假 设 SPQ 是 图 7-12 所 示 的 关系 。 于 是 表达 式 


SPQ UNGROUP PQ 


(或 许 是 意料 之 中 ) 返回 了 常用 的 关系 SP。 更 具体 点 ， 它 产生 了 一 个 定 
义 如 下 的 关系 。 首 先 ， 表 头 形式 为 : 


{ S# S#, P# P#，QTY QTY } 


换言之 ， 表 头 包 含 属性 P# 和 QTY (从 属性 PQ 派生 而 来 )， 同 时 包含 SPQ 
的 所 有 其 他 属性 (在 本 例 中 就 是 S#) 。 其 次 ，SPQ 中 的 一 个 元 组 和 在 此 
元 组 中 PQ 值 的 一 个 元 组 构成 一 个 组 合 ， 对 于 每 个 组 合 ， 主 体 对 应 一 个 元 
组 (只 有 一 个 元 组 )。 主 体 的 每 个 元 组 由 S# 的 值 ( 如 s) 和 P#、QTY 的 
值 (如 p 和 4g) 组 成 ,通过 以 下 方式 得 到 : 四 A S# 对 
a 一 个 “ 解 组 ”的 元 组 集合 代替 了 一 个 SPQ 元 组 ， 对 应 SPQ 元 组 的 
PQ 值 中 的 每 个 元 组 产生 这 样 一 个 元 组 (如 x)。 
元 组 x 包含 两 部 分 ， 一 部 分 是 等 于 SPQ 元 组 中 S# 分 量 的 值 (如 s) ， 另 一 部 分 等 于 SPQ 元 
组 中 PQ 分 量 的 某 个 元 组 的 值 (如 y)。 
se 在 属性 S# 值 为 s 的 元 组 x 中， 分量 y 被 分 解 成 P# 和 QTY (如 p 和 4q)。 于 是 产生 了 这 样 的 
一 个 元 组 ， 它 在 属性 S# 上 值 为 s，P# 上 值 为 p，QTY 上 值 为 4。 

正如 前 面 所 说 的 那样 ， 整 个 的 结果 就 是 关系 .SP。 

可 以 看 到 ，R UNGROUP B (属性 下 的 值 为 关系 型 ， 其 表 头 为 (41，42，…，4n) ) 的 度 等 
于 nnR+n-1l1， 其 中 呈 为 尺 的 鹿 。 

正如 我 们 所 看 到 的 那样 ， 分 组 和 解 组 提供 了 关系 的 碰 套 和 非 败 套 功 能 。 我 们 更 倾向 于 用 术语 
分 组 / 解 组 一 一 因为 术语 符 套 /非凡 套 和 NE 关系 的 概念 有 着 紧密 联系 「 见 文献 6. 10 ] ， 而 我 们 并 
不 认同 这 个 概念 。 

为 了 完整 性 ， 本 节 最 后 谈 一 下 GROUP 和 UNGROUP 操作 的 可 逆 性 (初次 阅读 可 能 会 有 一 定 
的 困难 ) 。 如 果 通 过 任 一 种 途径 对 关系 了 分 组 ， 总 会 有 一 个 可 逆 的 解 组 操作 可 使 我 们 重新 得 到 r。 
然而 ， 如 果 按 某 种 途径 对 某 个 关系 上 进行 解 组 ， 

可 能 就 不 存在 相应 的 可 道 分 组 了 。 下 面 举 一 个 “|mwo THREE ONE 

例子 (基于 文献 [6.4] 中 的 一 个 例子 ) 。 假 设 A 加 加 ll 
有 关系 TWO ( 见 图 7-13)， 对 它 进行 解 组 操作 
得 到 关系 THREE。 如 果 现 在 对 THREE 按照 A 
分 组 (并且 把 产生 的 关系 型 属性 也 命名 为 
RVX) ， 得 到 的 将 是 ONE 而 不 是 TWO。 

如 果 我 们 对 ONE 进行 解 组 ， 将 会 得 到 
THREE; 而 且 我 们 已 经 知道 ， 对 THREE 进行 
分 组 可 以 得 到 ONE， 因 此 ， 对 这 一 对 特殊 的 关 
系 来 说 ， 分 组 和 分 组 还 原 操 作 是 可 逆 的 。 注 图 7-13 分 组 还 原 和 (重新 ) 分 组 不 一 定 是 可 道 的 











126 ” 田 二 部 分 类 系 检 型 


意 ， 在 ONE 中 ，RVX 函数 依赖 于 AS (有 必要 说 明 的 是 ，ONE 只 含有 一 个 元 组 ) 。 事 实 上 ， 我 们 
可 以 概括 地 说 ， 如 果 关 系 r 有 一 个 关系 型 的 属性 RVX， 则 说 + 是 分 组 还 原 可 逆 的 ， 当 且 仅 当 满 足 
下 面 两 个 条 件 : 

mr 的 任 一 元 组 在 RVX 上 不 是 一 个 空 关系 。 

as RVX 函数 依赖 于 r 的 所 有 其 他 属性 所 组 成 的 一 组 属性 。 


7.10 小结 


我 们 已 经 讨论 了 关系 代数 。 首 先 再 次 强调 了 封闭 性 和 侯 套 关系 表达 式 的 重要 性 ， 并 解释 了 如 
果 要 严格 保持 封闭 性 ， 则 要 有 一 套 关系 类 型 演绎 规则 (relation type inference rule) 。 正 是 基于 这 
样 的 考虑 ， 让 我 们 引入 了 重 命名 操作 。 

最 初 的 代数 包含 8 个 操作 符 一 一 传统 的 集合 操作 并 、 交 、 差 和 积 (对 它们 都 作 了 稍微 的 修 
改 ， 以 适应 其 操作 对 象 是 关系 而 不 是 任意 的 集合 的 特性 ) ， 和 专门 的 关系 操作 选择 、 投 影 、 连 接 
和 除 (对 于 除 的 情况 ， 我 们 曾 提 到 涉及 除 的 查询 通常 可 以 用 关系 比较 来 描述 ， 很 多 人 发 现 这 样 
的 描述 更 加 通俗 易 懂 ) 。 在 此 基础 上 又 加 了 重 命名 、 半 连接 、 半 减 、 扩 展 和 合计 操作 ， 我 们 也 提 
到 了 TCLOSE， 并 讨论 了 分 组 和 解 组 。 尤 其 是 扩展 ， 极 其 重要 (在 某 些 方面 它 如 同 连 接 操作 般 
重要 ) 。 

接 下 来 ,我们 指出 了 这 些 操作 符 并 不 全 都 是 基本 的 (它们 中 的 几 个 可 以 通过 其 他 的 来 表 
示 ) 但 在 我 们 看 来 ， 这 些 操作 符 已 经 非常 完美 了 。 正 如 文献 [7.3] 所 提 到 的 “定义 一 种 语 
言 时 ， 最 初 先 谨 慎 地 选择 几 个 基本 的 操作 -……… 在 往 后 的 发 展 中 ， 若 有 必要 ， 再 定义 新 的 操作 …… 
新 的 操作 可 以 用 旧 的 操作 来 描述 ” 也 就 是 ， 定 义 有 用 的 速记 。 如 果 选 择 得 好 ， 这 样 的 速记 
不 仅 可 以 帮 我 们 省 去 书写 表达 式 的 很 多 麻烦 ， 而 且 通 过 它们 和 和 别 的 操作 的 联合 使 用 ， 使 得 描述 查 
询 要 求 更 加 自然 ， 从 而 提升 了 抽象 程度 。 (它们 还 提供 了 更 有 效 的 实现 方法 。) 与 此 相关 ， 正 如 
7.6 节 所 引用 的 那样 ， 我 们 要 提醒 读者 ， 文 献 [3.3] 介绍 了 一 种 “简化 的 指令 集 ” 代 数 ， 称 为 
A。 它 的 目的 是 为 了 用 非常 少 的 描述 能 力 更 强 的 基本 操作 ， 来 支持 这 种 系统 的 定义 。 事 实 上 ， 那 
8 个 基本 操作 符 ， 还 有 重 命名 、 扩 展 、 合 计 、 分 组 和 和 解 组 等 操作 ， 可 以 仅 用 两 个 最 基本 的 操作 实 
现 ， 那 就 是 remove 和 nor。 

接 下 来 本 章 介绍 了 怎样 把 代数 操作 和 表达 式 结合 起 来 实现 一 系列 目的 : 查询 、 更 新 或 诸如 此 类 
的 。 我 们 还 简单 讨论 了 如 何 重 写 这 样 的 表达 式 来 达到 优化 的 目的 (详细 内 容 将 在 第 18 章 讲解 ) 。 我 
们 还 介绍 了 如 何 使 用 WITH 来 简化 复杂 的 查询 ; 由 于 WITH 人 允许 为 子 表达 式 引 进 名 称 ， 因 此 我 们 便 
可 以 考虑 用 分 步 的 方法 处 理 复杂 查询 ; 但 这 样 的 方式 并 没有 影响 到 代数 的 根本 : 非 过 程 化 。 

本 章 中 也 指出 了 某 些 操作 符 具 有 交换 性 和 结合 性 ， 还 给 出 了 一 些 恒等式 〈 例 如 ， 关 系 尺 等 
价 于 RR 的 某 些 选择 和 投影 的 结果 ) 。 我 们 还 考虑 了 仅仅 在 一 个 关系 ， 甚 至 空 关 系 上 ， 如 何 进行 连 
接 、 并 、 交 等 操作 。 
习题 
7.1 本 章 中 哪些 关系 操作 符 的 定义 不 要 求 元 组 具有 相同 的 类 型 ? 

7.2 给 定 前 面 的 供应 商 和 零件 数据 库 ， 表 达 式 S JOIN SP JOIN ?的 值 是 什么 ? 相应 的 谓词 又 是 什 

么 ? 注意 : 这 里 有 一 个 陷阱 ! 

7.3 ”假设 是 一 个 度 为 n 的 关系 。r 有 多 少 个 不 同 的 投影 ? 
7.4 本 章 中 ,我 们 声称 并 、 交 、 积 和 (自然 ) 连接 都 具有 交换 性 和 结合 性 。 证 明之 。 
7.5 考虑 表达 式 a JOIN bp， 如 果 a 各 6 没有 共同 的 属性 ， 则 a JOIN b。 等 价 于 a TIMES b。 如 果 a 和 4b 有 

相同 的 表 头 ， 则 上 述 表 达 式 等 价 于 a INTERSECT b。 证 明 前 述 判 断 。 如 果 a 的 属性 是 b 属 性 的 一 个 子 

集 ， 那 a JOIN 5 又 等 价 于 什么 呢 ? 

7.6 在 Codd 最 初 定义 的 8 个 操作 符 中 ， 并 、 差 、 积 、 选 择 和 投影 可 以 被 认为 是 基本 的 。 试 用 这 5 种 基本 











”请 看 第 11 章 ， 同 时 需要 特别 注意 的 是 ， 这 里 所 说 的 函数 依赖 的 形式 是 针对 关系 型 的 属性 〈 而 不 是 -- 般 关系 变量 
的 属性 ) 。 
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操作 来 表示 自然 连接 、 交 和 除 。 
算术 里 的 乘 和 除 是 两 个 互 递 的 操作 。 关 系 代数 中 的 TIMES 和 DIVIDEBY 是 互 道 操作 吗 ? 
算术 中 特殊 的 数字 1 和 0 使 对 任意 数字 都 有 如 下 性 质 


n*1 = 1l1*n = n,n*0 = 0*n = 0 


在 关系 代数 中 存在 类 似 角色 的 关系 吗 ? 如 果 有 ， 是 什么 ? (考虑 本 章 讨论 过 的 所 有 操作 符 。) 
在 7. 2 节 讲 到 ， 与 算术 中 封闭 性 的 重要 性 一 样 ， 关 系 封 闭 性 是 很 重要 的 。 然 而 算术 里 有 一 个 封闭 性 被 





打破 的 情况 一 一 即 被 零 除 。 关 系 代数 中 有 类 似 的 情况 吗 ? 
7.10 关系 操作 交 可 以 看 成 是 一 种 特殊 的 连接 ， 但 并 不 是 对 所 有 的 关系 ， 这 两 种 操作 都 会 产生 相同 的 结果 。 
为 什么 ? 
7.11 下 列表 达 式 哪些 是 等 价 的 (如 果 有 的 话 )? 
Aa. SUMMARIZE rr PER rr { } ADD COUNT AS CT 
b. SUMMARIZE + ADD COUNT AS CT 
Cc. SUMMARIZE + BY { } ADD COUNT AS CT 
d. EXTEND TABLE DEE ADD COUNT ( +r ) AS CT 
7.12 假设 r 是 由 下 面 表达 式 得 到 的 关系 
SP GROUP { } AS X 
那 根据 前 面 常用 的 供应 商 例 子 的 样本 值 ，r 的 结果 是 什么 ? 下 列表 达 式 的 值 又 是 什么 ? 
r UNGROUP X 
查询 练习 


下 面 的 练习 都 以 供应 商 - 零件 - 工程 数据 库 为 基础 ， 每 个 练习 要 求 你 为 某 个 查询 写 出 关系 代数 表达 式 


(由 于 个 人 不 同 的 爱好 ， 你 可 能 倾向 于 先 看 一 些 答案 ， 然 后 用 自然 语言 陈述 出 给 定 表达 式 的 意思 ) 。 为 了 方 
便 ， 下 面 列 出 数据 库 的 结构 ， 


S { S#, SNAME, STATUS，CITY } 


PRIMARY KEY { S# 


} 
Pp { P#, PNAME, COLOR, WEIGHT, CITY } 


PRIMARY KEY { P# } 


J { J#, JNAME, CITY } 


PRIMARY KEY { J# } 


SP { S#, P#, J#, QTY } 


PRIMARY KEY { S$, P#, J# } 

FOREIGN KEY { S# } REFERENCES S 
FOREIGN KEY { P# } REFERENCES P 
FOREIGN KEY { J# } REFERENCES J 


求 所 有 有 关 工 程 的 信息 。 

求 在 伦敦 的 所 有 工程 的 信息 。 

求 为 工程 卫 提供 零件 的 供应 商 的 号 码 。 

求 数量 在 300 ~ 750 之 间 的 所 有 发 货 。 

求 所 有 的 零件 颜色 /城市 对 。 注 意 : 这 里 及 以 后 所 说 的 “所 有 ” 特 指 在 数据 库 中 。 

求 所 有 的 供应 商号 /零件 号 /工程 号 三 元 组 。 其 中 所 指 的 供应 商 、 零 件 和 工程 在 同一 个 城市 。 
求 所 有 的 供应 商号 /零件 号 /工程 号 三 元 组 。 其 中 所 指 的 供应 商 、 零 件 和 工程 不 在 同一 个 城市 。 
求 所 有 的 供应 商号 /零件 号 /工程 号 三 元 组 。 其 中 所 指 的 供应 商 、 零 件 和 工程 三 者 中 的 任意 两 个 都 不 
在 同一 个 城市 。 

求 由 伦敦 的 供应 商 提供 的 零件 的 信息 。 

求 由 伦敦 的 供应 商 为 伦敦 的 工程 供应 的 零件 号 。 

求 满足 下 面 要 求 的 城市 对 ， 要 求 在 第 一 个 城市 的 供应 商 为 第 二 个 城市 的 工程 供应 零件 。 

求 供应 商 为 工程 供应 的 零件 号 ， 要 求 供应 商 和 工程 在 同一 城市 。 

求 至 少 被 一 个 不 在 同一 城市 的 供应 商 供应 零件 的 工程 号 。 

求 由 同一 个 供应 商 供应 的 零件 号 的 对 。 

求 所 有 由 供应 商 S1 供应 的 工程 号 。 
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7.28 
7.29 
7.30 
7.31 
7.32 
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7.39 


7.40 
7.41 
7.42 
7.43 
7.44 
7.45 
7.46 
7. 47 
7.48 


7.49 
7.50 


坑 二 部 分 关系 至 型 


求 供 应 商 Sl 供应 的 零件 Pi 的 总 量 。 

对 每 个 供应 给 工程 的 零件 ， 求 零件 号 、 工 程 号 和 相应 的 零件 总 量 。 

求 为 单个 工程 供应 的 零件 数量 超过 350 的 零件 号 。 

求 由 供应 商 S1 供应 的 工程 名 称 。 

求 由 供应 商 Si 供应 的 零件 颜色 。 

求 供应 给 伦敦 的 工程 的 零件 号 。 

求 使 用 了 S1 供应 的 零件 的 工程 号 。 

设 供应 了 红色 零件 的 供应 商 为 S2 ， 求 供应 了 至 少 一 个 S2 供应 的 零件 的 供应 商号 。 
求 status 比 SI 低 的 供应 商号 。 

求 所 在 城市 按 字 母 排 序 为 第 一 的 工程 号 。 

求 被 供应 零件 Pl 的 平均 数量 大 于 供应 给 工程 1 的 任意 零件 的 最 大 数量 的 工程 号 。 
求 满足 下 面 要 求 的 供应 商号 ， 该 供应 商 给 某 个 工程 供应 零件 Pl 的 数量 大 于 供应 给 这 个 工程 的 零件 
Pl 的 平均 数量 。 

求 没 有 被 伦敦 的 供应 商 供应 过 红色 零件 的 工程 号 。 

求 所 用 零件 全 被 S1 供应 的 工程 号 。 

求 所 有 伦敦 的 工程 都 使 用 的 零件 号 。 

求 对 所 有 工程 都 提供 了 同一 零件 的 供应 商号 。 

求 使 用 了 SI 提供 的 所 有 零件 的 工程 号 。 

求 至 少 有 一 个 供应 商 、 零 件 或 工程 所 在 的 城市 。 

求 被 伦敦 供应 商 供应 或 被 伦敦 工程 使 用 的 零件 号 。 

求 所 有 供应 商号 /零件 号 对 ， 其 中 指定 的 供应 商 不 供应 指定 的 零件 。 

求 供应 商号 码 对 (如 Sx 和 Sy) ， 其 中 Sx 和 Sy 供应 的 零件 都 相同 。 注 意 : 为 简单 起 见 ， 在 本 道 题 中 
你 可 以 使 用 原始 的 供应 商 和 零件 数据 库 ， 而 不 是 扩展 的 供应 商 -零件 - 工程 数据 库 。 
按 供应 商号 /零件 号 对 零件 供应 情况 分 组 ， 相 应 的 工程 号 和 数量 形成 二 元 关系 。 

对 上 题 所 得 的 关系 进行 分 组 还 原 。 
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的 操作 符 ， 即 大 除 不 是 小 除 的 一 个 扩充 。 该 论文 同时 显示 了 修改 的 操作 符 和 除 的 名 字 有 些 名 不 符 
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为 了 方便 引用 ， 在 这 里 给 出 Codd 对 除 的 定义 。 设 关系 4 和 中 分 别 有 表 头 1X,，Y| 和 1 站 | 
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一 种 表达 这 种 查询 的 方法 。 用 这 种 方法 ,“ 求 三 个 最 重 的 零件 ”可 以 表示 为 : 


P QUOTA ( 3, DESC WEIGHT ) 


这 个 表达 式 是 下 列 语句 的 简写 ; 


( ( EXTEND P 
ADD COUNT ( ( P RENAME WEIGHT RS WT ) WHERE WT > WEIGHT ) 
AS # HEAVIER ) 

WHERE # HEAVIER < 3 ) { ALL BUT # _ HEAVIER } 


(其 中 WT 和 #_HEAVIER 是 任意 的 。 给 定 我 们 常用 的 样本 数据 ， 则 结果 包含 零件 PR、P3 和 P6)。 
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由 于 历史 的 缘故 我 们 提 到 MacAIMS [7.6, 7.7]; 它 可 能 是 最 早 支持 n 元 关系 和 代数 语言 的 
系统 。 有 意思 的 是 ， 它 和 Codd 在 关系 模型 上 的 工作 是 并 行 发 展 的 ， 至 少 部 分 是 无 关 的 。 与 Codd 
的 工作 不 同 的 是 ，MacAIMS 没有 吸引 人 们 在 这 方面 做 进一步 的 研究 。 
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1972). 
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系统 。 它 建立 在 较 早 的 原型 IS/1 的 基础 之 上 一 一 可 能 正 是 1S/1 首次 实现 了 Codd 的 思想 。 它 支持 
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和 吸收 了 复杂 表达 式 转换 的 技术 (参看 第 18 章 ) 。 

s 具有 一 种 惰性 计算 特征 (lazy evaluation feature) ， 这 对 优化 和 视图 支持 是 很 重要 的 (参看 本 章 
关于 WITH 的 讨论 ) 。 

和 提供 可 扩展 功能 一 一 即 赋予 用 户 定义 自己 的 操作 符 的 权利 。 

P. A. V. Hall, P. Hitchcock, and S. 1.P. Todd “An Algebra of Relations for Machine Computation ,” 

Conf Record of the 2nd ACM Symposium on Principles of Programming Languages, Palo Alto, Calif. 

(January 1975 ) . 

Anthony Klug:“Equivalence of Relational Algebra and Relational Calculus Query Languages Having 

Aggregate Functions,” JACM 29, No.3 (July 1982). 

对 最 初 的 关系 代数 和 关系 演算 做 了 扩展 〈 见 第 8 章 ) ， 以 支持 聚集 操作 ， 并 证 明了 两 者 是 等 
价 的 。 








第 8 章 关系 演算 


8.1 引言 


关系 演算 可 以 代替 关系 代数 。 它 们 之 间 的 主要 区 别 是 : 关系 代数 提供 了 连接 、 并 和 投影 等 明 
确 的 集合 操作 符 ， 并 且 这 些 集合 操作 符 告诉 系统 如 何 从 给 定 关系 构造 所 要 求 的 关系 ; 而 关系 演算 
仅 提 供 了 一 种 描述 (notation〉 来 说 明 所 要 求 的 关系 (这 一 关系 是 根据 给 定 关系 导出 的 ) 的 定 
义 。 例 如 ， 查 询 提 供 零 件 P2 的 供应 商 的 号 码 和 所 在 城市 。 此 查询 的 一 个 代数 操作 形式 可 以 描述 
如 下 (在 这 里 有 意 不 使 用 第 7 章 的 语法 形式 ): 

1) 根据 供应 商号 (S#) 连接 供 货 商 表 (supplier) 和 供 货 表 (shipment) ; 

2) 在 上 述 连 接 结果 中 选择 零件 号 为 P2 的 元 组 ; 

3) 将 上 述 选择 结果 在 供应 商号 〈S#) 和 供应 商 所 在 城市 (city) 列 上 投影 。 

相对 而 言 ， 一 个 演算 形式 可 以 简单 地 描述 为 ; 

查 取 供应 商号 (S#) 和 供应 商 所 在 城市 (city) ， 当 且 仅 当 在 关系 供 货 中 存在 这 样 的 一 个 元 
组 : 它 具 有 同样 的 供应 商号 (S#) ， 且 它 的 零件 号 (P#) 取 值 P2。 

在 后 一 种 形式 中 ， 用 户 仅仅 描述 了 所 要 求 结果 的 定义 ， 而 把 具体 的 连接 、 选 择 等 操作 留 给 了 
系统 。 于 是 ， 我 们 可 以 这 样 说 (至 少 表面 地 看 ) : 关系 演算 是 描述 性 (descriptive) 形式 的 ， 而 
关系 代数 是 说 明 性 (prescriptive) 形式 的 。 关 系 演算 描述 了 问题 是 什么 ， 而 关系 代数 说 明了 解决 
问题 的 过 程 。 或 者 ， 可 以 说 ， 关 系 代数 是 过 程 化 的 (诚然 ， 是 高 级 的 ， 但 仍然 是 过 程 化 的 ) ; 而 
关系 演算 是 非 过 程 化 的 。 

然而 ， 我 们 强调 的 上 述 区 别 仅仅 是 形式 上 的 。 实 际 上 ， 关 系 代数 和 关系 演算 在 逻辑 十 是 等 价 
的 。 即 每 一 个 代数 表达 式 都 有 一 个 等 价 的 演算 表达 式 ， 每 一 个 演算 表达 式 都 有 一 个 等 价 的 代数 表达 
式 ， 两 者 是 一 一 对 应 的 关系 。 所 以 两 者 的 区 别 仅 仅 是 形式 上 的 : 关系 演算 更 接近 自然 语言 ， 而 关系 
代数 更 像 程序 语言 。 但 是 ， 需 要 重复 的 是 ， 这 种 区 别 更 多 的 是 表面 上 的 ， 而 不 是 实际 的 。 特 别 地 ， 
没有 哪 一 种 方法 真正 地 比 另外 一 种 更 加 非 过 程 化 。 我 们 将 在 8. 4 节 详 细 讨论 这 一 等 价 问题 。 

关系 演算 是 基于 谓词 演算 ， 它 是 数理 逻辑 的 一 个 分 支 。 使 用 谓词 演算 作为 查询 语言 的 基础 的 
思想 起 源 于 Kuhns [8.6] 的 一 篇 论文 。 关 系 演算 的 概念 〈( 即 特别 适合 关系 数据 库 的 一 个 应 用 型 
的 谓词 演算 ) 最 早 由 Codd 提出 (参考 [6.1] ); Codd 还 在 另外 一 篇 论文 [8.1] 中 提出 了 一 种 
基于 关系 演算 的 语言 ， 称 作 “ 数 据 子 语言 ALPHA”。ALPHA 从 没有 实际 实现 过 ,但 有 一 种 叫 作 
QUEL [8.5, 8. 10 ~8.12] 的 语言 主要 是 参照 它 研制 的 。QUEL 语言 已 经 实现 ， 并 且 一 度 是 SQL 
的 主要 竞争 对 手 。 

范围 变量 是 关系 演算 的 一 个 基本 特征 。 简 单 地 说 ， 范 围 变 量 就 是 限制 其 取 值 范围 在 一 个 指定 
关系 内 的 变量 。 即 其 允许 的 取 值 是 这 个 关系 中 的 一 个 元 组 。 所 以 ， 如 果 范 围 变 量 V 限制 在 关系 7 
土 ， 则 在 任何 时 候 ， 表 达 式 “V” 都 表示 关系 r 的 某 一 元 组 f。 例如 ， 查 询 “ 在 London 的 供应 商 
的 供应 商号 ”， 用 QUEL 语言 可 以 表达 如 下 : 


RANGE OF SX IS S ; 
RETRIEVE ( SX.S# ) WHERE SX.CITY = “London" : 


在 这 里 SX 是 范围 变量 ， 且 它 限制 在 关系 变量 S 的 当前 关系 上 (RANGE 语句 是 对 范围 变量 
的 定义 ) 。RETRIEVE 语句 可 以 这 样 解释 : 对 于 变量 SX 的 每 一 个 取 值 ， 要 取出 其 S# 字 段 的 值 ， 
当 且 仅 当 其 CITY 字段 的 值 为 London。 

由 于 对 值 为 元 组 的 范围 变量 的 依赖 性 (并 且 也 是 为 了 同 域 演算 区 分 开 来 一 一 见 下 一 段 ) ， 所 
以 ， 起 初 关系 演算 就 是 元 组 演算 。 元 组 演算 将 在 8. 2 节 详 细 令 述 。 注 意 : 为 了 简单 起 见 ， 在 这 本 
书 中 ， 一般 用 演算 和 关系 演算 ， 而 不 加 “元 组 ”或 “ 域 ”这 样 的 修饰 词 ， 来 专 指 元 组 演算 。 

Lacroix 和 Pirotte 提出 了 另 一 种 演算 形式 ， 即 域 演算 (参考 [8.7])。 这 种 演算 的 范围 变量 
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的 取 值 限制 在 域 上 而 不 是 在 关系 上 。( 这 个 术语 是 不 恰当 的 :如 果 这 种 演算 形式 由 于 上 述 原因 而 
被 称 为 域 演算 ， 那么 元 组 演算 就 应 该 被 称 为 关系 演算 了 。) 在 所 有 已 提出 的 与 域 演算 语言 相关 的 
文献 中 ， 可 能 Query-By-Example 语言 (QBE, 参考 [8. 14]) 是 最 有 名 的 (尽管 实际 上 QBE 混 
合 了 某 些 元 组 演算 成 分 ) 。 现 在 QBE 已 经 在 商业 上 实现 了 。 我 们 将 在 8.7 节 大 致 介绍 一 下 域 演 
算 ， 并 在 8. 8 节 简 要 讨论 一 下 QBE。 

注意 : 由 于 篇 幅 原 因 ， 在 演算 讨论 中 ， 我 们 有 意 省 略 了 一 些 第 7 章 中 讨论 的 主题 ， 例 如 分 组 
与 解 组 。 在 演算 中 我 们 也 忽略 了 关系 更 新 操作 。 关 于 这 些 问题 ， 参 考 文献 [3.3] 做 了 简单 的 


讨论 。 
8.2 元 组 演算 


与 第 7 章 中 讨论 关系 代数 的 方法 一 样 ， 在 这 里 我 们 首先 介绍 语法 ， 然 后 讨论 语义 。 注 意 : 本 
章 介绍 的 语法 虽 与 Tutorial D (参考 [3.3] 的 附录 A) 给 出 的 演算 语法 不 完全 一 致 ， 但 基本 风 
格 是 一 样 的 。 我 们 将 首先 讨论 语法 ， 而 在 其 余 的 小 节 中 讨论 语义 。 

1. 语法 

注意 : 这 一 小 节 的 许多 语法 规则 是 以 比较 零散 的 形式 给 出 的 ， 只 有 当 了 解 了 后 面 的 语义 解释 
后 ， 才 能 理解 其 含义 。 不 过 这 里 把 它们 先 罗列 在 此 ， 便 于 后 面 讨论 时 引用 。 

这 里 先 给 出 第 7 章 介绍 的 关系 表达 式 < relarion exp > 的 语法 : 


“relation exp> 
RELATION { <tuple exp commalist> } 
<relvar name> 
<relation op inv> 
<with exp> 
<introduced name> 
( <relation exp> ) 


换 名 话说， 这 里 的 关系 表达 式 和 以 前 是 一 样 的 ， 但 是 ， 其 中 最 重要 的 ， 同 时 也 是 这 一 章 唯一 
详细 讨论 的 部 分 ， 关 系 操作 < relation op inv > 却 有 着 不 同 的 解释 (下 面 将 会 看 到 ) 。 


“range_ var def> 
RANGEVAR <range var name> 
RANGES OVER <relation exp commalist> ; 


在 一 定 的 上 下 文中 ， 范 围 变量 名 < range var name > 可 以 是 元 组 表达 式 < tuple exp >”。 这 种 
上 下 文 是 : 

e 范围 属性 引用 < range attribute ref > 中 量词 的 点 号 之 前 ; 

a 紧 接 量化 布尔 表达 式 < quantified bool exp > 的 量词 ; 

a 作为 布尔 表达 式 < bool exp > 的 一 个 操作 数 ; 

盏 作为 一 个 <proto tuple > 或 <proto tuple > 中 的 表达 式 或 其 中 的 操作 数 。 

“range attribute ref> 


<range var name> . <attribute name> 
{ AS <attribute name> ] 


在 一 定 的 上 下 文中 ，< range attribute ref > 可 以 用 作 一 个 表达 式 < exp > 。 这 种 上 下 文 是 ; 
作为 布尔 表达 式 < bool exp > 中 的 一 个 操作 数 ; 
和 作为 一 个 <proto tuple > 或 <proto tuple > 中 的 表达 式 或 其 中 的 操作 数 。 


<bool ,exp> 
.. all the usual possibilities, together with: 
| <guantified bool exp> 


只 有 当下 面 两 个 条 件 都 成 立时 ， 布 尔 表达 式 < bool exp > 中 范围 变量 的 引用 才 不 受 其 约束 。 





GO 通过 上 面 的 例子 大 家 已 经 能 够 大 体 了 解 < tuple exp > ， 这 里 就 不 再 做 详细 的 介绍 了 。 由 于 一 些 客观 原因 ， 我 们 在 
这 里 没有 使 用 和 前 几 章 相同 的 语法 。 
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和 关系 操作 < relation op inv > 中 直接 出 现 的 布尔 表达 式 < bool exp > ( 即 布尔 表达 式 直 接 跟 
在 关键 字 WHERE 后 面 ) ; 
s < proto tuple > 中 直接 出 现 的 同一 个 范围 变量 的 引用 (必须 是 自由 的 ) 直接 包含 在 同一 个 
关系 操作 中 〈 即 < proto tuple > 出 现在 关键 字 WHERE 之 前 ) 。 
术语 解释 : 在 关系 演算 (包括 元 组 演算 和 域 演 算 ) 这 一 部 分 里 ， 布 尔 表 达 式 通常 叫做 合式 
公式 (well-formed formulas) 或 简写 为 WFF。 在 大 多 数 如 下 情况 中 ， 我 们 使 用 这 一 术语 : 
<quantified bool exp> 
3 := <quantifier> <range var name> ( <bool exp> ) 


“quantifier> 
EXISTS | FORALL 


<relation op inv 
:= te tuple> [ WHERE <bool exp> ] 


在 第 7 章 的 关系 代数 中 我 们 讲 到 ， 关 系 操作 < relation op inv > 是 关系 表达 式 < relation exp > 
的 一 种 形式 。 但 这 里 我 们 给 出 一 个 不 同 的 定义 。 

<proto tuple> 

:= ... See the body of the text 

所 有 在 原型 元 组 < proto tuple > 中 直接 出 现 的 范围 变量 的 引用 都 必须 独立 于 该 原型 元 组 。 注 
意 :“proto tuple” 表 示 “prototype tuple”。 在 这 里 这 个 术语 是 合适 的 ， 但 不 标准 。 

2. 范围 变量 

下 面 给 出 一 些 范 围 变 量 的 例子 (用 供应 商 表 和 零件 表 为 例 ): 


RANGEVAR SX RANGES OVER S; 
RANGEVAR SY RANGES OVER S ; 
RANGEVAR SPX RANGES OVER SP ; 
RANGEVAR SPY RANGES OVER SP ; 
RANGEVAR PX RANGES OVER P ; 


RANGEVAR SU RANGES OVER 
( SX WHERE SX.CITY = ‘London' ) 
( SX WHERE EXISTS SPX ( SPX. ss = "sx. S# AND 
SPX.P# = P# ('Pl') ) ); 


上 例 中 的 范围 变量 SU 定义 在 一 组 元 组 集合 的 并 上 ， 这 个 集合 并 是 : 所 有 既 住 在 伦敦 又 提供 
零件 Pl 的 供应 商 的 元 组 。 注 意 ， 范 围 变 量 SU 的 定义 利用 了 范围 变量 SX 和 SPX; 因此 根据 并 的 
定义 ， 所 有 参加 “并 ”的 关系 ， 其 类 型 必须 是 一 样 的 。 

注意 : 从 通常 的 程序 语言 的 角度 讲 ， 范 围 变量 并 不 是 变量 ， 这 里 讲 的 变量 是 从 逻辑 意义 上 讲 
的 。 实 际 上 ， 与 第 3 章 讨论 的 参数 (parameters) 有 点 类 似 。 不 同 的 是 : 第 3 章 讲 的 参数 取 值 为 
域 值 ， 而 元 组 演算 中 的 元 组 变量 取 值 为 元 组 。 

在 本 章 以 后 的 讨论 中 ， 我 们 将 采用 上 述 范围 变量 的 定义 。 我 们 注意 到 ， 在 实际 的 语言 中 ， 应 
该 有 一 些 规则 去 限定 这 种 定义 的 范围 。 但 在 本 章 中 我 们 忽略 了 此 问题 (除了 SQL 的 部 分 ) 。 

3. 自由 变量 引用 和 约束 变量 引用 

在 一 些 上 下 文中 ， 尤 其 在 合式 公式 中 ， 每 一 个 变量 的 引用 要 么 是 自由 的 ， 要 么 是 约束 的 。 首 
先 我 们 从 纯 语 法 的 角度 解释 这 个 概念 ， 接 着 继续 讨论 它 的 重要 性 。 

设 V 为 范围 变量 , p 和 4 为 合式 公式 ， 则 : 

me 在 合式 公式 “NOT p” 中 的 V 引 用 是 否 受 此 合式 公式 的 约束 ， 要 看 它们 是 否 受 p 的 约束 。 
在 合式 公式 (p AND gq) 和 (p OR 4) 中 的 V 引 用 是 否 受 此 合式 公式 的 约束 ， 要 看 它们 是 
5 受 p 或 4 的 约束 。 

a 如 果 V 引用 在 合式 公式 “p” 中 是 自由 的 ， 则 它 在 合式 公式 “EXISTS V(p)” 和 
“FORALL V(p)” 中 一 定 是 受 约束 的 。 其 他 在 “p” 中 的 范围 变量 的 引用 是 否 受 合式 公式 
“EXISTS V(p)” 和 “FORALL V(p)” 的 约束 ， 要 看 它们 是 否 受 “p” 的 约束 。 

为 了 完整 性 ,我 们 再 增加 下 面 几 条 : 
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9 在 <range var name >V 中 的 V 单 独 引 用 (sole reference) 是 不 受 此 < range var name > 的 
约束 的 。 

se 在 <range attribute ref>V.h 中 的 V 单 独 引 用 是 不 受 此 < range attribute rer > 的 约束 的 。 

s 如 果 在 某 一 表达 式 exp 中 V 引 用 是 自由 的 ， 那么 在 其 他 任何 包含 exp 的 表达 式 ezp' 中 ,此 
Y 引 用 也 是 自由 的 ， 除 非 表达 式 exp' 中 有 某 一 量词 限制 了 此 引用 。 

下 面 是 包含 范围 变量 的 合式 公式 的 一 些 例 子 : 

s 简单 比较 : 
SX.S# = S# ('S1') 
SX.S# = SPX.S# 
SPX.P# PX.P# 


在 此 例 中 ， 所 有 对 SX、PX 和 SPX 的 引用 都 是 自由 的 。 
简单 比较 的 布尔 联合 : 

PX.WEIGHT < WEIGHT ( 15.5 ) AND PX.CITY = '0s1o， 
NOT ( SX.CITY = 'London' ) 

SX.S# = SPX.S# RND SPX.P# z PX.P# 

PX.COLOR = COLOR ('Red') OR PX.CITY = 'London， 


在 此 例 中 ， 所 有 对 SX、PX 和 SPX 的 引用 也 都 是 自由 的 。 
量化 合式 公式 : 


EXISTS SPX ( SPX.S# = SX.S# AND SPX.P# = P# ('P2') ) 


FORALL PX ( PX.COLOR = COLOR ('Red') ) 


在 这 两 个 例子 中 ，SPX 和 PX 引用 是 约束 的 ，SX 的 引用 是 自由 的 。 我 们 接 下 来 讨论 量词 。 

4. 量词 

量词 (quantifier) 有 两 个 ， 即 EXISTS 和 FORALL。EXISTS 是 存在 量词 ， 而 FORALL 是 全 
称 量词 ”。 基 本 上 讲 ， 如 果 p 是 合式 公式 ， 且 此 公式 中 V 是 自由 的 ， 则 : 


EXISTS V ( p) 


和 


FORALLV ( p ) 


都 是 合法 的 合式 公式 ， 且 在 两 者 中 V 都 是 受 约束 的 。 第 一 名 的 意思 是 : 至 少 存在 一 个 V 值 ， 使 
得 p 为 真 。 第 二 句 的 意思 是 : 对 所 有 的 V 值 ,p 总 是 为 真 。 例 如 ,假设 变量 V 限制 在 “2003 年 
美国 参议 院 议员 ”这 个 集合 体 中 ， 并 假设 p 是 合式 公式 “V 都 为 女性 ”( 当然 ， 在 这 里 ， 我 们 不 
试图 使 用 形式 化 语法 !) ， 则 “EXISTS V(p)” 和 “FORALL V(p)” 都 是 合法 的 合式 公式 ， 并且 
它们 的 取 值 分 别 为 真 和 假 。 

再 看 上 一 节 结 束 时 EXISTS 量词 的 例子 : 


EXISTS SPX ( SPX.S# = SX.S# AND SPX.P# = P# ('P2') ) 


根据 以 上 所 述 ， 我 们 可 以 这 样 理解 此 合式 公式 : 

在 关系 变量 SP 的 当前 值 里 存在 一 个 SPX， 其 S# 的 字段 值 等 于 任 一 SX. S# 字 段 值 ， 且 P# 取 值 
为 P2。 
在 这 里 SPX 的 引用 是 约束 的 ， 只 有 SX 的 引用 是 自由 的 。 





”术语 量词 源 于 动词 量化 (quantify) ， 大 致意 思 是 “有 和 多少”。 符 号 3 (左右 颠倒 的 E) 和 符号 Y (上 下 蛤 倒 的 
A) 分 别 用 来 代替 存在 和 全 部 。 
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我 们 可 以 将 EXISTS 量词 理解 为 多 个 OR 的 重复 。 换 句 话说 ， 如 果 (a) 上 是 一 个 关系 ， 且 其 
中 有 元 组 有 1 ,及 ,…,tm;(b) Y 是 一 个 定义 在 上 ~ 上 的 范围 变量 ; (c) P(Y) 是 一 个 合式 公式 ， 且 在 
这 里 是 自由 变量 ， 则 合式 公式 : 


EXISTS V (p (V)) 


就 等 于 : 


FALSE ORP (tl )oR... OoRPD ( tm) 


特别 地 ， 如 果 是 空 的 ( 即 普 为 零 ) ， 则 此 表达 式 取 值 为 假 。 
下 面 我 们 通过 例子 来 说 明 。 首 先 假设 关系 > 包含 下 面 的 元 组 (这 里 为 了 简洁 ， 没 有 使 用 通常 
的 语法 ) : 
(1，2，3 ) 
(1I，2，4 ) 
{ 1, 3, 4) 
假设 这 三 个 属性 按 从 左 到 右 的 顺序 分 别 记 为 4、B 和 C， 每 一 属性 都 取 整 型 。 这 样 ， 下 面 的 合式 
公式 就 有 所 示 的 取 值 : 
EXISTS V ( V.C > 1 
EXISTS V ( V.B > 3 
V.A>1 


) 
) : 
EXISTS V ( ORV.C=4) : TRUE 


现在 ， 我 们 开始 讨论 FORALL 量词 。 还 是 从 上 一 小 节 结 束 时 的 例子 开始 : 


FORALL PX ( PX.COLOR = COLOR ('Red') ) 


我 们 可 以 如 下 理解 此 合式 公式 : 

在 关系 变量 PP 的 当前 值 中 ， 对 所 有 的 元 组 PX， 其 COLOR 字段 的 取 值 为 RED。 

在 这 里 两 次 PX 引用 都 是 受 约束 的 。 

正 像 我 们 把 EXISTS 量词 理解 为 OR 的 重复 使 用 一 样 ， 我 们 把 FORALL 量词 理解 为 AND 的 
重复 。 换 句 话 说 ， 如 果 r、V 和 p(V) 都 和 上 述 EXISTS 量词 中 讨论 的 一 样 ， 则 合式 公式 : 


FORALLV (pl(V)) 


可 以 理解 为 : 


TRUE AND p ( tl ) AND ... ANDpl(tm) 


特别 地 ， 如 果 r 是 空 的 ( 即 m 为 零 )， 则 此 表达 式 取 值 为 真 。 
下 面 我 们 通过 例子 来 说 明 。 首 先 假设 关系 r+ 包含 和 上 面 同样 的 元 组 ， 则 下 面 的 合式 公式 就 有 
所 示 的 取 值 : 


FORRLL V (V.A> 1 ) FALSE 
FORALL VV {({ V.B>1) : TRUE 
FORALL V (V.A=1 ANDV.C>2) : TRUE 


注意 : 我 们 支持 两 种 量词 仅仅 是 为 了 方便 ,实际 上 这 不 是 逻辑 上 必须 的 ， 因 为 其 中 的 任 一 个 
量词 都 可 以 由 另 一 个 表示 出 来 。 为 了 更 加 明确 ， 请 看 下 面 的 式 子 


FORALLV (pp) ww NOT EXISTS V ( NOT p ) 


(不 严格 地 说 ， 就 是 “所 有 使 得 p 为 真 的 VV 和 “不 存在 这 样 的 V 使 得 p 为 假 ” 这 两 种 说 法 是 一 
样 的 ) 。 此 式 表明 : 任何 一 个 包含 FORALL 的 合式 公式 都 可 以 被 一 个 等 价 的 包含 EXISTS 的 合式 
公式 代替 。 例 如 ， 下 面 的 语句 〈 值 为 真 ) “对 所 有 的 整数 x， 存 在 一 个 整数 y， 使 得 ”> x”( 即 
每 一 个 整数 都 有 一 个 比 它 大 的 整数 ) 等 价 于 “不 存在 一 个 整数 x， 使 得 不 存在 一 个 整数 y，、 使 得 
y > x”( 即 不 存在 一 个 最 大 整数 )。 但 是 ,一些 问题 适合 于 用 FORALL 量词 描述 ， 而 另外 一 些 则 
用 EXISTS 量词 描述 更 加 方便 。 进 一 步 地 ， 如 果 其 中 的 一 种 量词 不 能 使 用 ， 我 们 有 时 将 不 得 不 使 
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用 双重 否定 〈 正 如 前 面 的 例子 所 示 ) ， 而 双重 否定 处 理 起 来 比较 困难 ， 因 此 在 实际 引用 中 ， 这 两 
个 量词 都 要 求 支 持 。 

5. 自由 变量 引用 和 约束 变量 引用 补充 

假设 x 的 取 值 限制 在 整数 集 上 ， 考 虑 下 面 的 合式 公式 : 


EXISTS x (X> 3 ) 


注意 ， 这 里 x 是 哑 元 (dummy) ， 它 仅仅 起 到 连接 括号 里 面 的 布尔 表达 式 和 外 面 的 量词 的 作 
用 。 这 个 合式 公式 只 是 说 明 : 存在 某 个 整数 x, 它 比 3 大 。 因 此 ， 如 果 所 有 x 的 引用 被 其 他 的 一 
些 变量 y 的 引用 所 代替 ， 则 此 合式 公式 的 意义 不 会 发 生变 化 。 即 合式 公式 


EXISTS y (y >3) 


在 语义 上 和 上 式 是 一 样 的 。 
再 看 下 面 的 合式 公式 : 


EXISTS x {x>3) ANDx<0 


此 式 对 x 进行 了 三 次 引用 ， 表 示 两 个 不 同 的 变量 。 前 两 次 引用 是 受 约束 的 ， 它 可 以 被 其 他 的 
引用 所 代替 而 不 改变 整 句 的 意思 。 第 三 个 引用 是 自由 的 ， 它 不 能 随便 地 被 替换 。 所 以 对 下 面 的 合 
式 公 式 ， 第 一 个 和 上 面 的 等 价 ， 第 二 个 就 不 是 : 


EXISTS y (yy 了 > 3 ) ANDx<0 


EXISTS y (yy > 3 ) ANDyY< 0 


而 且 ， 还 要 注意 ， 如 果 不 知道 自由 变量 引用 x 表示 的 合式 公式 的 值 ， 就 不 能 确定 原 合式 公式 
的 值 。 反 过 来 ， 如 果 一 合式 公式 的 所 有 变量 引用 都 是 受 约束 的 ， 也 不 能 确定 此 合式 公式 的 值 一 定 
为 真 或 假 。 这 里 有 两 个 术语 : 一 个 是 封闭 式 合式 公式 (closed WFF) ， 就 是 说 ， 在 此 公式 内 的 所 
有 变量 引用 都 是 受 约束 的 (实际 上 这 是 一 个 命题 ); 另 一 个 是 开放 式 合式 公式 (open WEF) ， 即 
其 中 至 少 包含 一 个 自由 变量 引用 。 如 果 用 第 3 章 讲 到 的 术语 来 解释 ， 封 闭 式 合式 公式 是 一 个 命 
题 ， 而 开放 式 合式 公式 是 一 个 谓词 ， 但 它 不 是 命题 。( 请 注意 命题 是 退化 的 特殊 谓词 ， 它 的 参数 
集 为 空 。) 

6. 关系 操作 

关系 操作 这 个 术语 在 演算 里 使 用 也 许 不 太 合适 ， 关 系 定义 可 能 更 加 合适 。 我 们 这 样 用 是 为 了 
和 第 7 章 保持 一 致 性 。 参 看 下 面 的 语法 : 

<relation op inv> 

:= <proto tuple> { WHERE <bool exp> ] 
<proto tuple> 
:= ... See the body of the text 
回忆 一 下 前 面 的 语法 规则 ， 在 此 我 们 稍微 做 了 一 点 修改 : 
m 所 有 在 原型 元 组 中 引用 的 范围 变量 都 必须 不 受 此 原型 元 组 的 约束 。 
= WHERE 子 句 中 的 范围 变量 的 引用 可 能 是 自由 的 ， 仅 当 在 相应 的 原型 元 组 中 同一 范围 变量 
的 引用 存在 ， 并 且 是 自由 的 。 
例如 ， 下 述 操作 是 一 个 合法 的 关系 操作 (“ 寻 找 位 于 伦敦 的 供应 商 的 供应 商号 ”) : 


SX.S# WHERE SX.CITY = 'London' 


在 此 原型 元 组 中 ，SX 的 引用 是 自由 的 ; 在 WHERE 子 句 中 ，SX 的 引用 也 是 自由 的 。 这 种 应 用 是 
合法 的 。 因 为 在 这 一 原型 元 组 中 出 现 的 是 同一 范围 变量 ， 且 它们 是 自由 的 。 

再 看 下 面 的 例子 (“寻找 供应 零件 P2 的 供应 商 的 供应 商号 ”一 一 参看 本 小 节 前 面 关于 EX- 
ISTS 量词 的 讨论 ) : 


SX.SNAME WHERE ERXISTS SPX ( SPX.S# = SX.S# AND 
SPX.P# = B# ('P2') ) 
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这 里 SX 的 引用 都 是 自由 的 ; WHERE 子 句 中 的 SPX 引用 都 是 受 约束 的 ， 因 为 在 这 个 原型 元 
组 中 没有 同一 范围 变量 的 引用 。 

直观 上 看 ， 一 个 给 定 的 关系 操作 等 价 于 包含 每 一 个 原型 元 组 可 能 的 值 的 关系 。 并 且 对 这 些 原 
型 元 组 来 说 ， 在 WHERE 子 句 中 指定 的 布尔 表达 式 取 值 为 真 ( 若 省 略 了 WHERE 子 句 ， 就 默认 为 
WHERE 子 句 取 值 为 真 ) 。 为 了 更 加 明确 ， 下 面 进一步 解释 : 

sm 首先 ， 原 型 元 组 是 - -个 由 括号 括 起 来 的 集合 ， 集 合 中 的 元 素 用 逗号 分 隔 ( 如果 集合 中 内 
有 一 个 元 素 ， 则 括号 可 以 省 略 ) 。 在 此 集合 中 ， 每 一 项 要 么 是 一 个 范围 属性 引用 (可 能 包 
含 一 个 AS 子 句 来 引入 一 个 新 的 属性 名 ) ， 要 么 是 一 个 简单 的 范围 变量 名 。( 还 存在 其 他 的 
可 能 ， 但 在 进一步 讨论 这 两 种 情况 之 前 ， 其 他 可 能 我 们 先 不 子 考虑 。) 但 是 : 

a) 这 里 的 范围 变量 名 基本 上 是 范围 属性 引用 列表 的 简 记 ， 而 范围 属性 就 是 此 范围 变量 被 
限制 的 关系 的 每 一 个 属性 ; 

b) 没有 AS 子 句 的 范围 属性 的 引用 基本 上 仅 是 一 个 简 记 ， 即 其 中 每 一 个 新 属性 名 与 原 属 
性 名 是 一 样 的 。 

因此 不 失 一 般 性 ， 我 们 把 原型 元 组 看 作 范 围 属 性 引用 的 列表 ， 如 Vi. 4 AS Bj。 注 意 ,，Vi 
和 4 不 必 都 是 明确 的 ,但 万 一 定 要 明确 。 

9 设 原型 元 组 中 的 范围 变量 定 为 Vi ,了 迪 ,…,Vni; 设 这 些 范围 变量 定义 在 其 上 的 这 些 关 系 分 
别 为 71 , 芒 ,…,rm; 在 应 用 AS 子 句 中 的 属性 重 命名 之 后 ， 设 相应 的 关系 为 r1', 2',…， 
rm'; 设 r 是 71', 六 ',…,rm' 的 币 卡 尔 积 。 

和 设 r 是 r' 中 使 得 WHERE 子 句 中 合式 公式 的 取 值 为 真 的 子 集 。 注 意 : 为 了 这 些 说 明 ， 我 们 
还 要 假设 前 面 步骤 中 WHERE 子 句 中 的 重 命名 是 应 用 在 属性 上 ， 否 则 WHERE 子 句 中 的 合 
式 公 式 将 没有 意义 。 然 而 ， 实 际 上 ， 具 体 语法 并 不 依赖 于 这 一 假设 ， 而 是 依赖 于 圆 点 符 去 
消除 必要 的 岐 义 。 下 一 小 节 我 们 还 将 作 说 明 。 

所 有 关系 操作 的 值 都 是 定义 在 所 有 的 有 万 上 的 关系 + 的 投影 。 

具体 请 看 下 一 节 的 例子 。 


8.3 举例 

下 面 .我 们 用 明确 的 查询 给 出 一 些 有 关 演算 的 例子 。 作 为 练习 ， 为 了 对 比 起 见 ， 你 可 以 试 着 
给 出 代数 形式 。 有 些 例子 在 第 7 章 中 曾经 出 现 过 ， 这 里 做 了 标注 。 

例 8.3.1 找 出 位 于 Paris 且 其 状态 大 于 20 的 供应 商 的 供应 商号 及 状态 


{ SX.S#, SX.STATUS } 
WHERE SX.CITY = 'Paris' AND SX.STATUS > 20 


例 8.3.2 找 出 所 有 成 对 的 住 在 同一 城市 的 供应 商 的 供应 商号 ( 例 7. 5.5) 


{ SX.S# AS SA, SY.S# AS SB } 
WHERE SX.CITY = SY.CITY AND SX.S# < SY.S# 


注意 ; 原型 元 组 中 给 出 了 最 终结 果 的 属性 名 ; 这 些 名 字 在 WHERE 子 句 中 是 不 能 使 用 的 ， 
这 就 是 为 什么 WHERE 子 句 的 第 二 个 比较 用 “SX. S# < SY. S#” 而 不 是 “SA < SB” 的 
形式 。 

例 8.3.3 找 出 供应 零件 P2 的 所 有 供应 商 的 信息 (修改 过 的 例 7. 5. 1) 


SX WHERE EXISTS SPX ( SPX.S# = SX.S# AND SPX.P# = P# ('P2') ) 


注意 : 此 原型 元 组 中 范围 变量 名 的 使 用 。 这 个 例子 可 以 写成 以 下 形式 : 


{ SX.S#, SX.SNAME, SX.STATUS, SX.CITY } 
WHERE EXISTS SPX ( SPX.S# = SX.S# AND SPX.P# = P# ('P2') ) 
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例 8. 3.4 找 出 至 少 供应 一 个 红色 零件 的 供应 商 名 ( 例 7.5.2) 


SX .SNAME 
WHERE EXISTS SPX { SX.S# = SPX.S# AND 
EXISTS PX ( PX.P# = SPX.P# AND 
PX.COLOR = COLOR ('Red') ) ) 


或 者 用 下 述 前 束 范式 表示 。 此 式 中 所 有 量词 都 提 到 合式 公式 之 前 。 


SX .SNAME 
WHERE EXISTS SPX ( EXISTS BX ( SX.S# = SPX.S# AND 
SPX.P# = PX.P# AND 
PX.COLOR = COLOR ('Red') ) ) 


前 永 范式 并 不 是 天 然 地 比 其 他 形式 更 正确 或 没有 其 他 形式 正确 ， 但 是 在 许多 情况 下 ， 这 种 范 
式 比较 自然 明确 。 而 且 ， 它 的 使 用 有 可 能 使 得 括号 的 数量 减少 。 例 如 ， 看 下 面 的 合式 公 

Ql V1 ( Q2 V2 ( wff ) ) 
(这 里 ， 每 一 个 Ql 和 Q2 或 者 是 EXISTS 或 者 是 FORALL ) 。 此 式 可 能 很 随意 ， 但 很 明确 。 此 式 
可 以 缩写 为 ; 


Ql1 V1 Q2 V2 ( wff ) 


这 样 我 们 可 以 简化 上 面 的 演算 表达 式 ， 如 下 : 
SX . SNAME 
WHERE BXISTS SPX EXISTS PX ( SX,S# =_SPX.S# AND 


PX.P# = PX.P# AND 
Bx COLOR = COLOR ('Red') ) 


然而 ,为 了 简明 起 见 ， 我 们 将 继续 使 用 所 有 的 括号 。 
例 8.3.5 找 出 至 少 供应 S2 供应 的 零件 之 一 的 供应 商 名 


SX. SNAME 

WHERE EXISTS SPX ( EXISTS SPY ( SX.S# = SPX.S# AND 
SPX.P# = SPY.P# AND 
SPY.S# = S# ('$2') ) ) 


例 8.3.6 找 出 供应 所 有 零件 的 供应 商 名 ( 例 7. 5. 3) 


SX.SNAME WHERE FORALL PX ( EXISTS SPX ( SPX.S# = SX.S# AND 
SPX.P# = PX.P# ) ) 


不 使 用 FORALL 量词 ， 可 以 等 价 地 表示 为 : 
SX.SNAME WHERE NOT EXISTS PX ( NOT EXISTS SPX 
( SPX.S# = SX.S# AND 
SPX.P# = PX.P# ) ) 


例 8.3.7 找 出 不 供应 零件 P2 的 供应 商 名 ( 例 7. 5.6) 


SX.SNAME WHERE NOT EXISTS SPX 
( SPX.S# = SX.S# AND SPX.P# = P# ('P2') ) 


注意 : 此 结果 很 容易 从 例 8. 3. 3 的 结果 导出 来 。 
例 8. 3.8 找 出 至 少 由 供应 商 S2 所 供应 的 零件 的 供应 商号 { 例 7. 5. 4) 


SX.S# WHERE FORALL SPX ( SPX.S# + S# {('S2') OR 
EXISTS SPY ( SPY.S# = SX.S# AND 
SPY.P# = SPX.P# ) ) 


此 句 可 解释 为 :“ 取 供应 商 SX 的 号 码 ， 对 于 每 一 个 SPX， 下 列 条 件 为 真 : 要 么 此 供 货 不 是 
来 自 于 供应 商 S2; 要 么 存在 一 个 供 货 SPY，, 使 得 SPY 成 为 SX 供应 的 SPX 中 的 一 员 。” 对 这 种 复 
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杂 的 查询 ， 我 们 引 人 了 另 一 个 简单 明了 的 语法 简写 形式 ， 即 逻辑 蕴含 。 如 果 忆 和 9 是 合式 公式 ， 
则 逻辑 区 含 表 达 式 : 


IF p THEN q END IF 


也 是 一 个 合式 公式 ， 在 语义 上 和 下 式 相同 : 


( NOT D ) OR 9 


此 例 还 可 以 用 下 列 形式 表达 : 


SX.S# WHERE FORALL SPX ( IF SPX.S# = S# ('S2') THE 
EXISTS SPY ( SPY. 外 = Sx. S# AND 
SPY.P# = SPX.P# ) 
END IF ) 


此 名 可 以 这 样 理解 :“ 取 供应 商 SX 的 供应 商号 ， 对 于 每 一 个 SPX， 下 列 条 件 为 真 ， 如 果 供 
货 SPX 由 供应 商 S2 供应 ， 则 存在 一 个 供 货 SPY， 使 得 SPY 成 为 SX 供应 的 SPX 中 的 一 员 。 


例 8.3.9 找 出 重量 超过 16 磅 或 由 供应 商 S2 供应 的 零件 


RANGEVAR PU RANGES OVER 
( PX.P# WHERE PX.WEIGHT > WEIGHT ( 16.0 ) )， 
( SPX.P# WHERE SPX.S# = S# ('S2') ); 
PU. Pp# 
这 与 关系 代数 相似 ,包含 了 一 个 显 式 的 并 。 
下 面 给 出 此 查询 的 一 个 可 替换 形式 ， 但 这 第 二 个 式 子 要 依赖 于 关系 变量 P 的 零件 号 包含 了 
关系 变量 SP 的 零件 号 ， 这 一 点 是 并 的 形式 不 可 缺少 的 。 
PX.P# WHERE PX.WEIGHT > WEIGHT ( 16.0 ) 
OR 


EXISTS SPX ( SPX.P# = PX.P# AND 
SPX.S# = S# ('S2:) ) 


8.4 ”关系 演算 与 关系 代数 的 比较 


在 引言 里 我 们 就 谈 到 ， 关 系 演算 与 关系 代数 是 等 价 的 ， 现 在 我 们 更 加 具体 地 讨论 这 一 点 。 首 
先 ，Codd 认为 ， 至 少 关系 代数 跟 关系 演算 一 样 ， 具 有 强大 的 表达 能 力 (参看 [7.1])。 他 给 出 
了 一 个 算法 证 明 这 一 点 ， 这 一 算法 叫 “Codd 简约 算法 " 。 通 过 这 个 算法 ， 任 意 一 个 演算 表达 式 
都 可 以 简约 为 在 语法 上 等 价 的 代数 表达 式 。 这 里 不 具体 提供 Codd 的 算法 ， 但 是 我 们 用 较 大 众 化 
的 术语 举 一 个 适当 复杂 的 例子 ， 来 解释 这 个 算法 如 何 实现 ”。 

现在 来 举 一 个 例子 。 不 使 用 我 们 熟悉 的 供应 商 与 零件 数据 库 ， 而 使 用 扩展 的 供应 商 - 零件 - 
工程 数据 库 (参看 第 4 章 及 其 他 一 些 地 方 ) 。 为 方便 起 见 ， 我 们 用 图 8-1 给 出 一 些 示 例 (参看 第 
4 章 图 4-5) 。 

现在 来 看 查询 : 查找 在 城市 Athens 至 少 供应 一 个 工程 且 每 种 零件 至 少 供应 50 个 的 供应 商 名 
及 其 所 在 城市 。 这 个 查询 的 一 个 演算 表达 式 是 : 


{ SX.SNAME, SX.CITY } WHERE EXISTS JX FORALL PX EXISTS SPJX 
{ JX.CITY = 'Athens' AND 
JX.J# = SPJX.J# AND 
PX.P# = SPJX.P# AND 
SX.S# = SPJX.S# AND 
SPJX.QTY > QTY ( 50 ) ) 


其 中 SX、PX、JX 和 SPJX 分 别 是 定义 在 S、P、J 和 SP] 上 的 范围 变量 。 下 面 我 们 来 看 此 查询 如 





”实际 上 , 文献 [7.1] 提 到 的 运算 法 则 有 一 个 小 的 缺陷 [8.2] 。 此 外 ， 该 篇 论文 中 定义 的 关系 演算 并 没有 包含 
完整 的 并 操作 。 因 此 ， 严 格 地 说 ，Codd 的 关系 演算 并 没有 他 的 关系 代数 功能 强大 。 但 是 ， 关 系 代数 与 包含 了 完 
整 并 操作 的 关系 演算 仍然 是 等 价 的 ， 很 多 学 者 已 经 证 明了 这 一 点 ， 比 如 Kilvg [7. 11]。 
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何 进行 计算 。 

步骤 1: 对 每 一 个 范围 变量 ， 只 要 可 能 ， 就 对 其 进行 选择 而 确定 其 范围 ( 即 确定 所 有 可 能 的 
值 ) 。 这 样 ， 就 意味 着 在 WHERE 子 句 里 炭 人 了 限制 性 条 件 (参考 第 7 章 的 定义 ) ， 使 得 WHERE 
子 句 一 执行 ， 就 消减 了 一 定 的 元 组 。 本 例 中 ， 确 定 后 的 元 组 是 : 


SX: S 中 所 有 元 组 5 个 元 组 
PX: P 中 所 有 元 组 6 个 元 组 
JX.: J 中 CITY = ' Athens 的 元 组 2 个 元 组 


SPJX: SPJ 中 QTY>=>QTY(S50) 的 元 组 24 个 元 组 












SPJ 和 





STATUS 
















London 
Paris 
Paris 
London 
Athens 












London 
Paris 
Oslo 
London 
Paris 
London 











Sorter 
Display 
OCR 
Console 
RRID 
EDS 
Tape 


图 8-1 供应 商 -零件 - 工程 数据 库 ( 含 样 本 数据 ) 
步骤 2: 根据 步骤 1 的 结果 ， 构 造 第 卡尔 积 ， 得 下 表 : 








(等 等 )。 完 全 的 第 卡尔 积 的 结果 是 5x6 x2 x24 =1440 个 元 组 。 注 意 : 由 于 空间 有 限 ， 上 表 只 列 
出 了 一 部 分 。 我 们 没有 给 上 述 属性 重 命名 ， 其 实 为 了 避免 模糊 性 ， 应 该 这 样 做 。 但 是 上 表 中 用 不 
同 的 位 置 表明 同名 的 属性 来 自 哪 些 表 。 这 种 非 正 式 的 运用 仅仅 是 为 了 简化 说 明 。 

步骤 3: 根据 WHERE 子 句 的 连接 部 分 ， 来 选择 步骤 2 中 构造 的 向 卡 尔 积 。 此 例 中 ， 这 一 连 
接 部 分 是 : 


JX .JI = SPJIX.J# AND PX.P# = SPJX.P# AND SX.S# = SPJX.S# 
因此 ， 对 于 上 述 币 卡 尔 积 中 那些 供应 商 S# 值 不 等 于 供 货 S# 值 的 元 组 ， 那 些 零件 P# 值 不 等 于 供 货 


P# 值 的 元 组 ， 那 些 工程 刑 的 值 不 等 于 供 货 J# 的 值 的 元 组 ， 统 统 删 掉 。 这 样 ， 我 们 得 到 上 述 第 卡 
尔 积 的 一 个 子 集 ， 是 10 个 元 组 ， 如 下 所 示 : 
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(此 表 为 等 值 连接 结果 ) 。 

步骤 4: 从 右 到 左 ， 运 用 量词 ， 如 下 所 示 : 

s 对 于 量词 EXISTS V (这 里 V 是 限制 在 关系 r 上 的 范围 变量 )， 在 当前 中 间 结 果 上 进行 投 
影 而 删除 关系 "上 的 所 有 属性 。 

。 对 于 量词 FORALL V， 用 步骤 1 中 确定 的 跟 V 有 关 的 、 限 制 了 范围 的 关系 去 除 以 当前 中 间 
结果 。 这 个 操作 也 会 删除 关系 + 上 的 所 有 属性 。 注 意 ; 这 里 讲 的 除 ， 就 是 Codd 讲 的 除 操 
作 (参见 [7.4])。 

此 例 中 ， 这 些 量词 是 : 


EXISTS JX FORALL PX EXISTS SPJX 


内 此 : 
m (EXISTS SPJX) 通过 投影 消去 SPJ 的 属性 ， 即 SPJ. S#、SPJ. P#、SPJ. ]# 和 SPJ QTY， 结 
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a (FORALL PX) 用 步骤 1 中 P 表 的 结果 去 除 以 上 述 结果 ， 得 : 


| Sonn | snaros | Cirr TREE Tea | 


(我 们 现在 可 以 完全 显示 结果 了 ) 
s (EXISTS JX) 再 通过 投影 消去 7 了 的 属性 ， 即 工 弄 、J NAME 和 JJ CITY， 结 果 是 : 


EE 
ls5 | adams | 30 | Athens| 


步骤 5: 根据 原型 元 组 中 的 选择 ,对 步骤 4 的 结果 进行 投影 。 在 本 例 中 ， 原 型 元 组 是 ， 


{ SX.SNAME, SX.CITY } 


因此 ， 最 终结 果 是 : 


EL 
Adams 


从 前 面 的 叙述 可 以 得 出 : 原始 的 演算 表达 式 在 语义 上 等 价 于 某 一 般 套 的 代数 表达 式 。 精 确 地 
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讲 ， 就 是 : 四 个 选择 的 积 的 选择 的 投影 的 除 的 投影 的 投影 ! 

当然 ， 对 这 种 算法 还 能 做 出 许多 改进 〈 具 体 参 看 第 18 章 ， 特 别 是 文献 【18.4] ， 那 里 有 一 
些 改进 的 思想 ) ， 上 述 例子 的 解释 已 经 涉及 了 不 少 细节 ; 不 过 ， 它 没有 充分 地 给 出 简约 工作 的 一 
般 思想 。 

还 有 ， 现 在 我 们 能 够 解释 为 什么 Codd 精确 地 定义 了 他 列 出 的 8 个 代数 操作 符 的 理由 之 一 
(其 实 不 仅仅 是 一 个 理由 )。 这 8 个 操作 符 ， 作 为 一 种 手段 ， 为 演算 的 可 能 实现 提供 了 一 种 方便 的 
目标 语言 。 例 如 ，QUEL 语言 就 是 建立 在 这 个 演算 的 基础 上 ， 这 种 语言 实现 的 一 个 可 能 的 途径 就 是 
用 户 提交 查询 一 一 这 个 查询 基本 上 就 是 一 个 演算 表达 式 一 一 再 运用 简约 算法 ， 最 后 获得 一 个 等 价 的 
代数 表达 式 ， 这 些 都 是 在 内 部 实现 的 。 下 一 步 就 是 继续 优化 此 代数 表达 式 ， 这 在 第 18 章 介 绍 。 

另 一 点 要 说 明 的 是 ，Codd 的 8 个 代数 操作 符 也 为 测度 任 一 给 定 的 数据 库 语 言 提供 了 一 个 标 
准 。 在 7.6 节 的 后 面 ， 我 们 已 简单 地 介绍 了 这 个 问题 ， 这 里 再 深入 地 讨论 一 下 。 

首先 ， 如 果 一 门 语言 具备 了 关系 演算 这 样 的 功能 ， 那 么 它 就 可 以 说 是 关系 完备 的 relational 
complete) 。 这 就 是 说 ， 如 果 某 一 关系 能 用 演算 表达 式 定义 ， 那 它 就 一 定 能 被 符合 关系 代数 ( 参 
看 [7.1]) 的 语言 的 某 种 表达 所 定义 。 (在 第 7 章 ， 我 们 说 关系 完备 就 是 它 具备 关系 代数 的 功 
能 ,而 不 是 关系 演算 。 但 是 ， 正 如 我 们 将 看 到 的 ， 这 两 者 是 一 回 事 。 注 意 ， 从 Codd 的 简约 算 
法 ， 直 接 可 得 到 关系 代数 具有 关系 完备 性 。) 

一 般 情 况 下 ， 关 系 完备 被 认为 是 数据 库 语言 表达 能 力 的 一 种 测度 。 特 别 地 ， 由 于 关系 代数 和 
关系 演算 都 具备 关系 完备 性 ， 故 不 必 运 用 循环 (在 面向 终端 用 户 的 语言 中 ， 它 是 一 种 重要 的 方 
法 ， 同 时 它 对 程序 员 也 特别 有 用 ) ， 就 可 以 为 具备 这 种 表达 能 力 的 语言 的 设计 提供 一 个 基础 。 

其 次 ， 由 于 关系 代数 具备 关系 完备 性 ， 故 为 了 表现 某 一 给 定语 言 L 具备 此 特征 ， 就 必须 充分 
表现 : (a) 荆 包括 类 似 8 个 代数 操作 符 的 操作 (实际 上 ， 要 充分 表现 关系 代数 的 5 个 基本 的 操 
作 ); (b) 工 语言 的 任 一 操作 符 的 操作 数 可 能 是 工 的 任 一 表达 。SQL 是 用 这 种 方式 表示 关系 完备 
的 语言 的 一 个 例子 (参看 练 半 8.9) ， 而 QUEL 是 另 一 个 例子 。 事 实 上， 在 实践 中 ， 要 表示 一 门 
语言 具备 关系 代数 操作 比 表 示 它 具备 关系 演算 表达 容易 得 多 。 这 就 是 我 们 为 什么 用 代数 的 方式 而 
不 用 演算 的 方式 解释 关系 完备 性 。 

还 有 ， 要 注意 ， 关 系 完 备 并 不 意味 着 其 他 方面 完备 。 例 如 一 门 语言 也 可 能 要 求 提供 计算 完 
备 ， 即 它 应 该 能 计算 可 能 计算 的 函数 。 计 算 完 备 是 我 们 在 第 7 章 中 给 关系 代数 增加 EXTEND 和 
SUMMARIZE 两 个 操作 符 的 动机 之 一 。 下 一 节 讨论 这 些 操作 的 关系 演算 。 

我 们 回 到 关系 代数 和 关系 演算 等 价 的 问题 上 : 通过 例子 我 们 已 经 表明 ， 任 意 演算 表达 式 能 够 
被 等 价 地 转化 为 代数 ， 因 此 关系 代数 至 少 具 有 关系 演算 的 功能 ; 相反 地 ， 代 数 能 够 被 等 价 地 转化 
为 演算 ， 四 此 关系 演 尖 至 少 具 有 关系 代数 的 功能 (证 明 请 参看 Uliman [8.13]， 它 很 好 地 说 明了 
这 两 者 逻辑 上 是 等 价 的 ) 。 


8.5 计算 能 力 


尽管 早 些 时 候 没有 明确 地 指出 ， 但 事实 上 ， 正 如 我 们 定义 的 那样 ， 关 系 演算 已 包括 类 似 关 系 
代数 中 的 EXTEND 和 SUMMARIZE 那样 的 操作 ， 因 为 : 

s 一 个 可 能 的 原型 元 组 的 形式 是 元 组 选择 子 调用 < tuple selector inv > (“tuple selector invoca- 

tion”) ， 并 且 其 组 成 部 分 是 任意 的 表达 式 。 

a 一 个 布尔 表达 式 中 比较 操作 的 比较 数 也 可 能 是 一 个 任意 的 表达 式 。 

和 正如 第 7 章 讲 到 的 ， 聚 集 算 子 调用 < agg op inv > (“aggregate operator invocation”) 中 的 

首 个 或 仅 有 的 变 元 是 一 个 关系 表达 式 。 

在 此 没有 必要 对 语法 和 语义 作 深 入 探讨 ， 下 面 给 出 了 一 些 例 子 ， 并 且 这 些 例 子 也 作 了 一 些 
简化 。 


例 8.5.1 找 出 重量 超过 10 000 克 的 零件 的 零件 号 及 重量 


{ PX.P#, PX.WEIGHT * 454 AS GMWT } 
WHERE PX.WEIGHT * 454 > WEIGHT ( 10000.0 ) 
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注意 到 原型 元 组 中 的 AS 说 明 〈 与 例 8. 3.2 类 似 ) ， 它 给 出 结果 中 可 用 的 名 字 。 这 个 名 字 不 
能 在 WHERE 子 句 中 使 用 。 这 就 是 为 什么 上 式 中 “”PX. WEIGHT * 454” 出 现 了 两 次 。 


例 8. 5.2 找 出 所 有 供应 商 的 信息 ， 并 且 用 字母 值 “Supplier” 标 记 每 一 个 供应 商 


{ SX, ‘Supplier' AS TAG } 


例 8. 5. 3 对 每 一 个 供 货 表 ， 取 出 所 有 的 供 货 信 息 ， 包 括 供 货 总 重 


{ SPX, PX.WEIGHT * SPX.QTY AS SHIPWT } WHERE PX.P# = SPX.P# 


例 8. 5.4 对 每 一 个 零件 ， 取 出 每 一 个 和 零件 号 和 其 供 货 总 数量 


{ PX.P#, SUM ( SPX WHERE SPX.P# = PX.P#, QTY ) AS TOTOTY } 


例 8.5.5 查找 总 的 供 货 数量 


SUM ( SPX, QTY } AS GRANDTOTAL 


例 8.5.6 对 每 一 个 供应 商 ， 取 出 其 供应 商号 及 其 供应 的 零件 的 总 数量 


{ SX.S#, COUNT ( SPX WHERE SPX.S# = SX.S# ) AS # OF _PARTS } 


例 8.5.7 找 出 保存 至 少 5 个 红色 零件 的 城市 


RANGEVAR PY RANGES OVER P; 
PX.CITY WHERE COUNT ( PY WHERE PY.CITY = PX.CITY 
AND PY.COLOR = COLOR ('Red') ) > 5 


8.6 SQL 语言 


在 8.4 节 我 们 已 经 谈 到 ， 一 种 给 定 的 关系 语言 要 么 基于 关系 代数 ， 要 么 基于 关系 演算 。 那 么 
SQL 语言 是 基于 哪 一 个 呢 ? 很 遗憾 ，SQL 只 有 部 分 基于 这 两 者 ， 还 有 一 部 分 并 不 基于 它们 。 因 
为 提出 SQL 语言 时 ， 就 明确 要 求 要 不 同 于 这 两 者 (参看 [4.9])。 事 实 上 ， 这 个 目标 就 是 引入 
“IN < subquery > ”结构 的 动机 (参看 本 节 后 面 的 例 10) 。 随 着 时 间 的 推移 ， 事 实证 明 关 系 代数 
和 关系 演算 的 一 些 特征 还 是 需要 的 ，SQL 也 在 逐 浙 开始 地 接受 它们 ? 。 今 天 ，SQL 语言 在 某 些 
方面 像 代 数 式 的 ， 在 某 些 方面 像 演 算式 的 ， 而 在 某 些 方面 两 者 都 不 像 。 这 一 现状 说 明了 为 什么 在 
第 7 章 我 们 说 将 SQL 数据 操作 的 讨论 推迟 到 这 一 章 讲 了 。 具 体 SQL 语言 的 哪些 部 分 是 基于 代数 
的 ， 哪 些 部 分 是 基于 演算 的 ， 哪 些 部 分 两 者 都 不 基于 ， 这 作为 练习 留 给 读者 ) 。 

SQL 查询 是 以 表 表 达 式 < table exp > 描述 的 ， 但 其 内 部 很 复杂 。 这 里 不 介绍 复杂 的 内 容 
只 简单 地 举 出 一 些 例子 ， 希望 这 些 例子 能 让 我 们 理解 其 精髓 。 这 些 例 子 基于 第 4 章 图 4-1 的 供应 
商 和 零件 数据 库 。 


例 8.6.1 找 出 非 Paris 生产 的 、 且 重量 超过 10 磅 的 零件 的 颜色 和 出 产地 


SELECT PX.COLOR, PX.CITY 
FROM P AS PX 

WHERE PX.CITY <> 'Pari 

AND PX.WEIGHT > WEIGHT ( 10.0 }; 


注意 : 





”这 一 进步 导致 的 结果 是 ， 正 如 参考 文献 [4. 19] 提 到 的 那样 , “IN < subquery > ”结构 现在 可 以 完全 从 SQL 中 
去 掉 ， 同 时 不 会 影响 SQL 语言 的 功能 。 这 一 事实 具有 讽刺 意味 ， 因 为 这 一 结构 正 是 SQL 语言 的 名 字 “ 结 构 化 碍 
询 语言 ”中 “结构 化 ”所 指 的 部 分 。 实 际 上 ， 人 们 也 正 是 因为 这 -结构 首先 考虑 采用 SQL 而 不 是 关系 代数 或 关 
系 演算 。 
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1) 正如 第 5 章 讲 到 的 ，SQL 语法 中 表示 不 相等 的 操作 符 是 “ <> ”。 小 于 等 于 和 大 于 等 于 被 
记 做 “<” 和 “> 宕 ”。 

2) FROM 子 句 中 的 “P AS PX” 的 含义 是 : 在 当前 基本 表 P 上 定义 一 个 范围 变量 PX (元 组 
型 的 )。 名 字 PX (注意 这 里 的 PX 不 是 指 变量 ) 被 称 为 相关 关系 名 (correlation name) 。 这 个 名 
字 的 作用 域 就 是 定义 它 的 表 表 达 式 ， 除 非 该 表 表 达 式 的 子 表达 式 含有 同名 的 范围 变量 (参见 例 
8. 6. 12)。 

3) SQL 也 支持 隐 式 范围 变量 的 概念 。 如 上 面 的 查询 也 等 价 于 : 


SELECT P.COLOR, P.CITY 
FROM PP 
WHERE P.CITY <> 'Paris， 

AND P.WEIGHT > WEIGHT ( 10.0 ) ) 


这 里 基本 的 思想 是 : 使 用 表 名 作为 定义 在 这 个 表 上 的 隐 式 范围 变量 名 ， 这 当然 不 会 造成 歧 
义 。 在 此 例 中 ，FROM 子 句 “FROM P” 可 以 认为 是 “FROM P AS P” 的 缩写 。 换 句 话 说， 如 
SELECT 和 WHERE 子 旬 中 “P. CITY” 中 的 “P”， 不 是 代表 基本 表 P， 而 是 代表 同名 的 、 定 义 
在 该 表 上 的 范围 变量 一 一 这 一 点 必须 明确 。 

4) 正如 第 4 章 所 述 的 那样 ， 在 此 例 中 我 们 可 以 用 不 受 限定 的 列 名 ， 如 下 所 示 : 

RON PooR, CITY 


WHERE CITY <> 'Paris' 
AND WEIGHT > WEIGHT ( 10.0 );，; 


一 般 的 规则 是 : 只 有 在 不 引起 歧义 时 ,不 受 限定 的 列 名 才 可 以 使 用 。 在 例子 中 ， 我 们 通常 写 
出 了 所 有 的 限定 词 ( 当然 不 是 所 有 情况 ) ， 尽 管 有 时 会 有 宛 余 。 然 而 ， 有 些 上 下 文中 明确 地 要 求 
列 名 不 受 限定 ! ORDER BY 子 句 就 是 一 个 例子 ”9 。 请 看 下 面 的 例子 。 

5) 在 第 4 章 的 游标 定义 中 讲 的 ORDER B87 子 句 ， 也 能 在 SQL 交互 查询 中 使 用 ， 例 如 : 

SELECT 了 OPOR， P.CITY 


WHERE P.CITY <> 'Paris' 
AND P.WEIGHT > WEIGHT ( 10.0 ) 





ORDER BY CITY DESC ; /* note unqualified column name */ 
6) 再 要 注意 的 是 第 4 章 提 到 过 的 “SELECT * ”的 缩写 , 例如: 
SELECT * 

FROM P 


WHERE P.CITY <> "Paris' 

AND P.WEIGHT > WEIGHT ( 10.0 ) : 

“SELECT * ”中 的 星 号 是 FROM 子 句 中 涉及 的 所 有 表 的 所 有 列 的 列 名称 列 表 的 简写 ， 并 且 
它 隐 含 着 按 原 表 中 列 出 现 的 从 左 到 右 的 顺序 。 由 于 此 符号 的 使 用 ， 节 省 了 键盘 敲 击 ， 故 在 交互 式 
查询 中 是 很 方便 的 。 然 而 , 它 在 嵌入 式 SQL ( 即 SQL 戎 在 应 用 程序 中 ) 中 却 存在 潜在 的 危险 。 
这 是 因为 “* ”的 意思 会 发 生变 化 。 如 用 ALTER TABLE 给 表 增 加 列 和 删除 列 。 

7) 《这 一 点 比 前 面 一 点 更 重要 !) 现在 ， 给 出 表 中 的 示例 数据 ， 上 面 的 查询 将 返回 四 行 ， 而 
不 是 两 行 ， 即 使 这 里 有 三 行 相同 。SQL 不 会 自动 地 从 查询 结果 中 删除 多 余 的 重复 行 ， 要 删除 的 
话 ， 必 须要 求 用 户 在 查询 中 显 式 地 使 用 关键 字 DISTINCT。 例 如 : 


SELECT DISTINCT P.COLOR, P.CITY 
FROM 卫 


WHERE P.CITY <> 'Paris' 
AND P.WEIGHT > WEIGHT ( 10.0 ); 


此 查询 只 返回 两 行 。 





除了 第 4 章 4.6 节 讲 到 的 内 容 。 
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正如 第 6 章 已 经 介绍 的 一 样 ， 我 们 从 上 面 的 例子 看 出 SQL 的 基本 数据 对 象 不 是 关系 ， 而 是 
表 。 并 且 一 般 情况 下 ，SQL 表 不 是 行 的 集合 ， 而 是 行 的 包 (bag) 。 这 样 ，SQL 就 违背 了 信息 原 
则 (information principle) 。 所 以 ，SQL 的 基本 操作 不 是 真正 的 关系 操作 ， 而 是 类 似 包 的 操作 ; 
并 且 在 关系 模型 里 是 正确 的 结果 和 原理 ， 由 于 考虑 到 表达 的 变化 〈 例 如 [6.6]), 在 SQL 里 都 
不 一 定 正确 了 。 


例 8.6.2 找 出 所 有 零件 的 零件 号 及 其 重量 ( 例 8. 5. 1 的 简 版 ) 

SELECT P.P#, P.WEIGHT * 454 AS GMWT 

FROM P; 

这 里 ,“AS GMWT” 的 说 明 为 结果 中 的 计算 列 提供 了 一 个 合适 的 列 名 ， 于 是 结果 表 中 的 两 
列 分 别 叫 P# 和 GMWT。 如 果 没 有 AS 子 句 ， 则 查询 结果 中 相应 的 列 就 没有 列 名 。 注 意 ，SQL 实 
际 上 不 需要 在 这 样 的 环境 中 给 查询 结果 命名 ， 但 在 我 们 的 例子 中 仍然 这 么 做 了 。 


例 8.6.3 找 出 供应 商 所 在 地 和 零件 出 产地 在 同一 地 方 的 这 两 者 的 所 有 信息 
SQL 提供 了 许多 不 同 的 方法 完成 这 一 查询 ， 这 里 给 出 三 个 例子 : 
1) SELECT S.*, P.P#, P.PNAME, P.COLOR, P.WEIGHT 
WHERE SCITY = P.CITY ; 
2) S JOIN P USING CITY ; 
3) S NATURAL JOIN P ; 
在 每 种 情况 下 ， 结 果 都 是 以 表 S 和 P 的 城市 进行 自然 连接 。? 
上 面 的 第 一 个 式 子 值得 讨论 ， 它 在 SQL 最 初版 本 中 定义 ， 在 SQL: 1992 标准 中 增加 了 对 显 
式 JOIN 操作 的 支持 。 从 概念 上 讲 ， 上 面 的 查询 是 按 如 下 步骤 进行 的 : 
se 首先， 执行 FROM 子 句 ,产生 8 和 P 的 笛 卡 尔 积 SP。 严 格 地 讲 ， 在 计算 这 个 积 之 前 ， 我 
们 应 该 当心 重 命名 的 列 ， 但 这 里 我 们 简单 地 忽略 了 这 个 问题 。 而 且 ， 正 如 7.7 节 中 所 示 ， 
一 个 单独 表 的 笛 卡 尔 积 仍然 是 其 本 身 。 
s 其 次 ， 当 WHERE 子 句 执行 时 ， 就 根据 每 行 中 两 个 CITY 列 的 值 相等 对 笛 卡 尔 积 进行 选 
择 ， 或 者 说 ， 现 在 我 们 已 经 用 CITY 列 对 供应 商 表 和 零件 表 进行 了 等 值 连接 。 
a 最 后 ， 当 SELECT 子 句 执行 时 ， 就 根据 此 列 中 所 指定 的 列 对 上 述 选择 结果 进行 投影 。 最 终 
结果 是 自然 连接 。 
因此 ， 不 严格 地 说 ， 在 SQL 中 FROM 子 甸 对 应 于 笛 卡尔 积 ，WHERE 子 句 对 应 于 选择 ，SE- 
LECT 子 句 对 应 于 投影 。SQL 中 的 SELECT- FROM- WHERE 结构 表示 了 稠 卡尔 积 的 选择 的 投影 
(虽然 这 里 的 投影 并 没有 消除 重复 的 元 组 ) 。 


例 8. 6.4 车 供应 商 为 另 一 个 不 是 他 所 在 的 城市 供应 零件 ， 找 出 这 两 个 城市 名 


SELECT DISTINCT S.CITY RS SCITY, P.CITY AS PCITY 
FROM S JOIN SP USING S# JOIN P USING P# ; 


注意 : 下 面 的 写法 是 不 正确 的 ， 因 为 它 在 第 二 个 连接 中 用 CITY 作为 连接 列 。 


SELECT DISTINCT S.CITY AS SCITY, P. CT AS PCITY 
FROM S NATURAL JOIN SP NATURAL JOIN 


例 8. 6.5 若 两 个 供应 商 在 同一 城市 ， 找 出 他 们 的 供应 商号 ( 例 8. 3. 2) 


SELECT A.S# AS SA, 3 S# AS SB 
FROM  S RS A，S AS 

WHERE A.CITY = B. zy 

AND A.S# < B.S# ，; 





外 SQL: 2003 要 求 后 两 种 表达 方式 中 包含 “SELECT * FROM” 前 组 。 
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此 例 中 明确 运用 了 显 式 范 围 变 量 。 注 意 ， 这 里 引入 了 SA、SB 作为 结果 表 的 列 名 ， 央 此 不 能 
在 WHERE 子 句 中 使 用 。 


例 8.6.6 找 出 供应 商 的 总 数量 
SELECT COUNT(*) AS N 
FROM S 
这 个 查询 的 结果 是 一 个 只 有 一 列 一 行 的 表 ， 其 列 名 为 N， 其 值 为 5。SQL 支持 聚集 操作 
COUNT 、SUM、AVG、MA 、MIN、EVERY 和 ANY” ,但 是 SQL 有 些 特殊 的 方面 用 户 需要 
注意 : 
e 一 般 地 ， 关 键 字 DISTINCT 是 可 选 的 ， 位 于 变 元 之 前 ， 从 而 在 聚集 之 前 删 去 多 余 的 重复 
行 ,如 SUM (DISTINDT QTY)。 然 而 ,对 于 MAX、MIN、EVERY 和 ANY，DISTINCT 
是 不 影响 结果 的 ， 因 此 不 应 该 使 用 。 
ae 特别 地 ， 对 于 COUNT ( * ) 操作 ， 不 能 在 其 中 使 用 关键 字 DISTINCT。 它 是 统计 表 中 包 
含 重复 的 所 有 的 行 。 
a 在 自 变量 列 中 ， 除 掉 COUNT ( * ) 把 NULL 值 当 作 一 存在 值 进行 统计 外 ， 其 余 的 都 在 聚 
集 之 前 把 NULL 值 所 在 行 忽 略 ， 而 不 管 变 元 之 前 是 否 加 了 DISTINCT 关键 字 (参看 第 
19 章 ) 。 
s 若 自 变 量 是 一 空 集 ，COUNT 操作 返回 零 值 ， 其 他 的 操作 都 返回 NULL 值 。 注 意 : 在 逻辑 
上 这 对 于 COUNT 是 正确 的 ， 但 对 其 他 操作 则 是 不 正确 的 。 例 如 ， 当 EVERY 作用 在 空 集 
上 时 ， 逻 辑 上 应 该 返回 真 ， 就 像 我 们 在 8. 2 节 看 到 的 一 样 。 


例 8. 6.7 找 出 零件 P2 的 最 多 和 最 少 供 货 数 量 

SELECT MAX ( SP.QTY ) AS MAXQ, MIN ( SP.QTY ) AS MINQ 

FROM SP 

WHERE SP.P# = P# ('P2') ; 

注意 ,实际 上 这 里 FROM 子 句 和 WHERE 子 句 都 运用 了 育 集 操作 的 变 元 部 分 。 因 此 ， 从 惧 
辑 上 讲 ， 它 们 应 该 用 括号 括 起 来 ， 正 如 本 查询 这 样 。 这 种 非 正统 的 语法 方法 会 对 SQL 语言 的 结 
构 、 使 用 和 正 交 性 ? 产生 非常 消极 的 影响 。 例 如 ， 一 个 直接 的 后 果 就 是 聚集 查询 不 能 被 嵌 套 ， 从 
而 导致 实现 像 “ 获 取 总 零件 数量 的 平均 值 ”这 样 的 查询 非常 麻烦 。 明 确 地 讲 ， 下 述 查 询 是 不 合 
法 的 : 

SELECT AVG ( SUM ( SP.QTY ) ) /* warning! illegal! */ 

FROM Sp; 
这 一 查询 应 该 写成 类 似 下 述 形式 : 


SELECT AVG ( X ) 
FROM ( SELECT SUM ( SP.QTY ) AS X 
FROM SP 
GROUP BY SP.S# ) AS POINTLESS ; 


下 面 的 例子 将 介绍 GROUP BY， 和 此 例 中 from 子 句 中 的 子 查询 一 样 ， 后 面 还 有 几 个 例子 介 


绍 构 套 子 查询 。 注 意 : AS POINTLESS 的 说 明 是 无 意义 的 , 但 是 SQL 语法 规则 有 这 样 的 要 求 
(进一步 的 讨论 请 参考 [4. 20j ) 。 


加 “EVERY 与 ALL 相似 (我 们 不 支持 使 用 ALL 这 个 单词 ) 。ANY 也 可 以 写 为 SOME。 在 “联机 分 析 处 理 ” 修 订 版 
(SQL/OLAP) 中 ， 引 入 了 一 些 新 的 聚集 操作 (参见 第 22 章 ) 。 

@” 正 交 性 的 意思 是 指 独立 性 ， 如 果 一 个 语言 中 独立 的 概念 能 保持 其 独立 性 ， 不 会 混 清 在 一 起 ， 那 么 我 们 称 这 个 语 
言 是 正 交 的 。 正 交 性 是 需要 的 ， 因 为 低 正 交 性 意味 着 高 复杂 性 ， 同 时 意味 着 较 少 的 功能 。 
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例 8. 6.8 对 每 一 个 供应 的 零件 ， 找 出 其 零件 号 及 其 供 货 总 数量 (修改 的 例 8. 5. 4) 


SELECT SP.P#, SUM ( SP.QTY ) AS TOTQTY 
FROM SP 
GROUP BY SP.P# ; 


下 面 是 关系 代数 表达 式 : 


SUMMARIZE SP BY { P# } ADD SUM ( QTY ) AS TOTQTY 


或 者 元 组 演算 表达 式 ; 


( SPX.P#, SUM ( SPY WHERE SPY.P# = SPX.P#, QTY ) AS TOTQTY ) 


注意 ， 如 果 运 用 了 GROUP BY 子 句 ， 则 SELECT 子 句 后 面 的 表述 就 得 单 值 分 组 ( single- val- 
ued per group ) 。 
下 面 是 此 查询 的 另 一 种 表述 〈 实 际 上 更 好 ) : 
SELECT P.P#, ( SELECT SUM ( SP.QTY ) 
FROM SP 
WHERE SP.P# = P.P# ) RS TOTOTY 
FROM Pp; 
这 样 使 用 子 查询 ， 我 们 能 得 到 的 结果 包括 了 根本 没有 供应 的 零件 的 行 ， 这 一 点 前 面 使 用 
GROUP BY 子 名 的 式 子 并 不 能 做 到 (然而, 不幸 的 是 ， 这 样 的 零件 的 TOTQTY 值 是 NULL 值 ， 
而 不 是 零 ) 。 


例 8.6.9 找 出 多 家 供应 商 供应 的 零件 号 


SELECT SP.P# 

FROM SP 

GROUP BY SP.P# 

HAVING COUNT ( SP.S# ) > 1;， 


HAVING 子 句 是 将 符合 WHERE 子 句 的 几 行 分 组 ; 或 者 说 ，HAVING 的 作用 是 删除 一 部 分 分 
组 ， 就 像 WHERE 子 句 删除 行 一 样 。 在 HAVING 子 句 中 的 表达 式 必 须 单 值 分 组 。 


例 8. 6. 10 找 出 供应 零件 P2 的 供应 商 的 名 字 ( 例 7.5.1) 


SELECT DISTINCT S.SNAME 
FROM S 
WHERE  S.S# IN 
( SELECT SP.S# 
FROM SB 
WHERE SP.P# = P# ('P2') }; 


解释 : 此 例 运 用 了 WHERE 子 句 的 子 查询 。 不 严格 地 讲 ， 一 个 子 查询 就 是 将 SELECT- 
FROM- WHERE-GROUP BY-HAVING 表述 嵌 在 另 一 个 这 样 的 查询 里 。 正 如 本 例 所 述 的 那样 ， 在 
有 些 情况 下 使 用 子 查询 是 要 通过 IN 条件 表示 一 系列 查询 值 。 这 一 方式 是 先进 行 子 查询 再 完成 整 
少 概念 上 是 这 样 的 。 此 例 先 返 回 供应 零件 P2 的 供应 商号 ， 即 | S1,S2,S3,S41 。 上 
面 的 表达 式 等 价 于 如 下 更 简单 的 表达 式 : 





SELECT DISTINCT S.SNAME 
F 


ROM 
WHERE S.S# IN { S#('S1)', S#('S2'), S#('S3'), S#{'S4) ) ; 


值得 提出 的 是 ， 本 题 的 查询 ( 找 出 供应 零件 P2 的 供应 商 的 名 字 ) 也 可 以 用 连接 来 完成 ， 
如 下 : 


SR DISTINCT S.SNAME 
Ss, 
WHERE S.S# = SB.S 
RND SP .P# = P# 人 P2') 
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例 8.6.11 找 出 供应 至 少 一 个 红色 零件 的 供应 商 名 ( 例 8. 3. 4) 


SELECT DISTINCT S.SNAME 
FROM 
WHERE S.S# IN 
( SELECT SP.S# 

FROM SP 

WHERE SP.P# IN 
SELECT P.P# 
FROM PP 
WHERE P.COLOR = COLOR ('Red') ) ); 


子 查询 可 以 散 套 到 任何 深度 。 练 习 : 给 出 此 查询 的 连接 查询 形式 。 
例 8. 6. 12 找 出 状态 小 于 当前 S 表 中 最 大 状态 值 的 供应 商 的 供应 商号 


SELECT S.S# 
FROM 
WHERE S.STATUS < 
( SELECT MAX ( S.STRTUS ) 
FROM  S ) :; 


本 例 隐 含 了 两 个 不 同 的 范围 变量 ， 但 它们 都 用 “S” 表 示 ， 且 都 定义 在 S 表 上 。 


例 8.6.13 找 出 供应 零件 P2 的 供应 商 名 
注意 ; 此 例 与 例 8. 6. 10 是 一 样 的 。 这 里 为 了 引入 SQL 的 另 一 个 特征 ， 我 们 给 出 了 另 一 
种 解 : 


SELECT DISTINCT S.SNAME 
FROM 
WHERE EXISTS 
SELECT * 
FROM SP 
WHERE SP.S# = S.S# 
AND SP.P# = P# ('P2') ); 
解释 ，SQL 表达 式 “EXISTS (SELECT … FROM…)” 取 真 值 ， 当 且 仅 当 “SELECT … 
FROM.…”" 取 非 空 值 。 或 者 说 ，SQL 中 的 EXISTS 操作 符 相 应 于 元 组 演算 中 的 存在 量词 (参看 
[19.6])。 注 意 : 在 这 个 特殊 的 作为 相关 子 查询 的 例子 中 ，SQL 涉及 子 查询 ， 因 此 它 包 含 了 一 范 
围 变 量 的 引用 ， 即 隐 式 范围 变量 S， 它 在 外 查询 中 定义 。 在 例 8. 6. 8 中 的 第 二 种 解法 也 是 一 个 相 


关子 查询 的 例子 。 
例 8. 6. 14 找 出 没有 供应 零件 P2 的 供应 商 的 供应 商 名 ( 例 8. 3. 7) 


SELECT DISTINCT S .SNRAME 


一 


一 


FROM S 
WHERE NOT EXISTS 
( SELECT * 
FROMK SP 


WHERE SP.S# = S.S# 
AND SP.P# = P# ('P2) ) ; 


或 者 : 


SELECT DISTINCT S.SNAME 

FROM 

WHERE S.S# NOT IN 

SELECT SP.S# 

FROM SP 

WHERE SP.P# = P# ('P2') ) ， 


一 


例 8. 6.15 找 出 供应 所 有 零件 的 供应 商 的 供应 商 名 ( 例 8. 3.6) 


SELECT DISTINCT S.SNAME 
FROM 
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WHERE NOT EXISTS 
( SELECT * 
FROM 了 
WHERE NOT EXISTS 
SELECT * 


一 


FROM SP 
WHERE SP.S# = S.S# 
AND SP.P# = P.P# ) ); 


SQL 不 直接 支持 全 称 量词 FORALL， 因 此 “FORALL” 全称 量 词 就 不 得 不 像 本 例 这 样 ， 利 用 
存在 量词 和 双重 否定 来 表述 。 
值得 注意 的 是 ， 尽 管 上 述 表 示 乍 一 看 令 人 觉得 烦琐 ,但 它 还 是 能 很 容易 地 被 熟悉 关系 演算 的 
用 户 所 构建 〈 参 看 [8.4] ) 。 如 果 上 述 表 示 还 是 很 烦琐 ， 那 可 以 用 几 个 “工作 区 ”的 方法 来 代 
替 ， 这 种 方法 可 以 避免 否定 量词 。 例 如 ， 本 例 可 写成 : 
SELECT DISTINCT S.SNRME 
FROM S 
WHERE ( SELECT COUNT ( SP.P# ) 
FROM SP 
WHERE SP.S# = S.S# ) 


= ( SELECT COUNT ( P.P# ) 
FROM PP ) ; 


(“ 取 供应 商 名 ， 它 们 供应 的 零件 的 数量 等 于 所 有 零件 的 数量 " ) 。 然 而 ， 注 意 : 后 面 的 式 子 
依赖 于 每 一 个 供 货 的 零件 号 等 于 某 一 现存 零件 的 号 码 ， 这 一 点 在 有 NOT EXISTS 的 量词 的 式 子 
中 不 和 需要。 或 者 说 仅仅 当 实现 了 一 定 的 完整 性 约束 条 件 (参看 下 一 章 ) 时 ， 这 两 个 式 子 才 等 价 ， 
并 且 第 二 个 式 子 才 正 确 。 

. 注意: 之 前 的 例子 要 做 的 是 比较 两 个 表 。 因 此 ， 上 述 查询 可 以 如 下 表 示 : 


SELECT DISTINCT S.SNAME /* warning! illegal! */ 
FROM S 
WHERE  ( SELECT SP.P# 


FROM SP 

WHERE SP.S# = S.S# ) 
= ( SELECT P.P# 

FROM  P ) ; 


然而 ，SQL 标准 并 没有 直接 支持 表 的 比较 ， 所 以 我 们 不 得 不 求助 于 比较 表 的 基本 部 分 ( 依 


赖 于 我 们 的 外 部 知识 去 确保 只 要 表 的 基本 部 分 是 一 样 的 ， 那么 这 两 个 表 就 是 一 样 的 ) 。 请 看 习 
题 8.11。 


例 8.6.16 找 出 那些 重量 超过 16 磅 或 者 由 S2 供应 的 或 者 两 者 都 具备 的 零件 号 ( 例 8. 3.9) 


SELECT P.P# 
FROM P 
WHERE P.WEIGHT > WEIGHT ( 16.0 ) 


UNION 
SELECT SP.P# 


FROM SP 
WHERE SP.S# = S# ('S2') ; 


使 用 不 加 限定 的 UNION、INTERSECT 或 者 EXCEPT (SQL 中 EXCEPT 即 是 MINUS ) ， 结 
果 中 多 余 的 重复 行 会 自动 地 被 删 去 。 同 时 ，SQL 也 提供 了 它们 的 另 一 种 形式 ， 即 带 限定 的 
UNION ALL、INTERSECT ALL 和 EXCEPT ALL。 使 用 它们 时 ， 对 于 重复 的 行 ， 只 要 有 都 会 保 
留 。 这 里 就 不 再 举例 了 。 


例 8.6.17 找 出 重量 大 于 10 000 克 的 零件 的 零件 号 和 重量 ( 以 克 为 单位 ) ( 例 8. 5.1) 


SELECT P.P#, P.WEIGHT * 454 AS GMWT 
FROM P 
WHERE P.WEIGHT * 454 > WEIGHT ( 10000.0 ) ; 
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请 读者 回忆 一 下 第 5 章 介 绍 的 WITH 子 句 ， 在 第 7 章 中 联系 关系 代数 我 们 曾经 使 用 过 它 。 
WITH 子 句 的 作用 是 : 引 和 人 表达 式 的 名 字 。SQL 也 包含 WITH 子 句 ， 但 只 能 用 于 表 表 达 式 。 例 
如 ， 我 们 可 以 用 下 面 的 子 名 避免 重复 书写 两 次 P. WEIGHT * 454: | 


WITH T1 AS ( SELECT P.P#, P.WEIGHT * 454 AS GMWT 
FROM Pp 


SELECT Tl.P#, Tl .GMWT 
FROM Tl 
WHERE Tl].GMWT > WEIGHT ( 10000.0 ) ; 


注意 ，WITH 子 句 的 开始 部 分 (我 们 在 前 面 的 章节 中 将 其 称 为 < name intro > ) 在 SQL 中 的 
形式 是 <name > AS ( <exp > ) ， 而 在 Tutorial D 中 的 形式 是 ( <exp > ) AS < name > 。 我 们 要 
注意 ， 对 于 用 SQL 来 类 似 地 表达 关系 代数 的 TCLOSE 操作 ，WITH 子 句 是 很 重要 的 。 这 里 不 做 
详细 的 讨论 ， 读 者 可 以 参考 练习 4.6 的 在 线 解 答 。 

这 一 节 举 了 不 少 例 子 ， 实 际 上 SQL 的 例子 是 相当 多 的 。 但 是 ， 这 只 讨论 了 SQL 大 量 的 特征 
的 一 小 部 分 。 实 际 上 ，SQL 是 非常 元 杂 的 语言 (参看 [4. 19] ) ， 它 为 完成 同样 的 功能 提供 了 大 
量 不 同 的 实现 方法 。 由 于 篇 幅 有 限 ， 我 们 就 不 再 讨论 所 有 可 能 的 实现 方法 ， 甚 至 对 本 节 讨 论 的 数 
量 有 限 的 例子 也 是 如 此 。 更 多 的 细节 请 参考 附录 B。 


8. 7 域 演算 


我 们 现在 讨论 域 演算 。 正 如 8. 1 节 所 述 ， 域 演算 不 同 于 元 组 演算 ， 它 是 定义 在 域 上 而 不 是 定 
义 在 元 组 上 。 从 实际 的 角度 看 ， 语 法 上 最 明显 的 不 同 是 域 演算 支持 布尔 表达 式 的 补充 形式 ， 我 们 
把 这 叫 作 隶属 条 件 (membership condition) 。 一 个 隶属 条 件 可 能 采取 的 形式 是 : 


R { <pair commalist> } 
这 里 RR 是 关系 变量 名 ， 且 每 一 个 pair 是 4 x 的 形式 ， 其 中 4 是 尺 的 一 个 属性 ，x 或 者 是 域 演算 的 


范围 变量 名 ， 或 者 是 选择 子 调用 〈 通 常用 文字 描述 ) 。 当 且 仅 当 存 在 一 个 元 组 ， 对 R 的 当前 值 无 
论 是 什么 关系 ， 指 定 的 属性 都 有 指定 的 值 时 ， 这 一 条 件 取 真 值 。 例 如 表达 式 : 


SP { S# S#('S1'), P# P#('P1') } 
当 且 仅 当 当前 存在 一 供 货 元 组 ， 其 S# 取 S1，P# 取 P1， 此 隶属 条 件 才 为 真 。 同 样 ， 下 面 的 隶属 
条 件 : 

SP { S# SX, P# PX } 
当 且 仅 当当 前 存在 一 个 供 货 元 组 ， 其 S# 取 范围 变量 SX 的 当前 值 (无论 此 值 是 什么 ) ， 且 P# 取 范 


围 变量 PX 的 当前 值 〈 无 论 此 值 是 什么 ) ， 上 述 条 件 取 真 值 。 
在 本 节 的 剩余 部 分 ， 我们 假设 存在 域 演算 的 范围 变量 ， 如 下 所 示 : 


域 范围 变量 
S# SX, SY, ... 
Pp# PX, PY, .. 
NAME NAMEX, NAMEY, . 
COLOR COLORX, COLORY, 
WEIGHT WEIGHTX, WEIGHTY, ... 
QTY QTYX, QTYY, .. 
CHAR CITYX, CITYY 
INTEGER STATUSX, STATUSY, 


下 面 是 域 演算 表达 式 的 一 些 例子 : 


SX 
SX WHERE S { S# SX )} 





昌 ”当然 它 也 可 以 被 用 来 和 关系 演算 联系 起 来 。 
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SX WHERE S { S# SX, CITY 'London' } 


{ SX, CITYX } WHERE S { S# SX, CITY CITYX } 
. AND SP { S# SX, P# P#('P2') } 


{ SX, PX } WHERE S { S# SX, CITY CITYX } 
AND Pp { P# PX, CITY CITYY } 
AND CITYX # CITYY 
不 严格 地 说 ， 第 一 个 式 子 表示 所 有 的 供应 商号 ; 第 二 个 表示 关系 变量 S 中 所 有 的 供应 商 
号 ; 第 三 个 表示 位 于 伦敦 的 供应 商号 ; 第 四 个 是 如 下 查询 的 域 演算 的 表示 : 取 供 应 零件 P2 的 
供应 商 的 供应 商号 和 所 在 城市 (注意 ， 此 查询 的 元 组 演算 表示 需要 一 个 存在 量词 EXISTS ) ; 
第 五 个 是 如 下 查询 的 域 演 算 的 表示 : 取 供 应 商 所 在 城市 与 零件 出 厂 地 不 在 同一 地 方 的 供应 商 
号 和 零件 号 。 
用 8.3 节 的 示例 ， 我 们 给 出 其 域 演 算 的 表示 (有 些 例 子 作 了 稍微 的 改动 ) 。 


例 8.7.1 找 出 位 于 巴黎 且 其 状态 大 于 20 的 供应 商 的 供应 商号 (简化 的 例 8. 3. 1) 


SX WHERE EXISTS STATUSX 
( STATUSX > 20 AND 
S { S# SX, STATUS STATUSX, CITY 'Paris' } ) 


就 这 个 例子 来 讲 ， 它 比 元 组 演算 显得 有 点 笨拙 ， 并 且 量 词 还 不 能 少 。 不 过 ， 有 时 情况 就 恰恰 
相反 ， 请 看 下 面 的 例子 。 


例 8.7.2 找 出 所 有 成 对 的 住 在 同一 城市 的 供应 商 的 供应 商号 { 例 8. 3. 2) 


{ SX RS SA, SY AS SB } WHERE EXISTS CITYZ 
(SS { S# SX, CITY CITYZ } AND 
S { S# SY, CITY CITYZ } AND 
SX < SY ) 


例 8.7.3 找 出 至 少 供应 一 个 红色 零件 的 供应 商 名 ( 例 8.3.4) 


NAMEX WHERE EXISTS SX EXISTS PX 
(5S { S# SX, SNAME NAMEX } 
AND SP { S# SX, P# PX } 
AND P { P# PX, COLOR COLOR('Red') } ) 


例 8.7.4 找 出 至 少 供应 S2 供应 的 零件 中 的 一 个 的 供应 商 名 ( 例 8. 3. 5) 


NAMEX WHERE EXISTS SX EXISTS PX 
( S { S# SX, SNAME NAMEX } 
AND SP { S# SX, P# PX } 
AND SP { S# S#('S2'), P#¥ PX } ) 


例 8.7.5 找 出 供应 所 有 零件 的 供应 商 名 ( 例 8. 3. 6) 
NAMEX WHERE EXISTS Sx ( § { S# SX, SNAME NAMEX } 
FORALL PX ( IF P { P# PX } 

THEN SP { S# SX, P# PX } 

END IF ) 
例 8.7.6 找 出 不 供应 零件 P2 的 供应 商 名 ( 例 8. 3.7) 
NAMEX WHERE EXISTS SX ( s { S# SX, SNAME NAMEX } 

D NOT SP { S# SX, P# P#('P2') } ) 
例 8.7.7 找 出 至 少 供 应 S2 所 供应 的 零件 的 供应 商号 ( 例 8. 3. 8) 
SX WHERE FORALL PX ( 5 SP { S# S#('S2°'), pt PX } 

X } 


HEN SP { S# SX, P# P 
END IF ) 
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例 8.7.8 找 出 重量 超过 16 磅 或 者 由 S2 提供 或 者 两 者 都 具备 的 零件 的 零件 号 ( 例 8. 3. 9) 


PX WHERE EXISTS WEIGHTX 
{ P# PX, WEIGHT WEIGHTX } 
AND WEIGHTX > WEIGHT ( 16.0 ) ) 
OR SP { S# S#('S2'), P# PX } 


域 演算 和 关系 演算 一 样 ， 正 常情 况 下 都 等 价 于 关系 代数 ， 即 都 是 关系 完备 的 (详细 情况 参 
看 [8.13j)。 


8.8 QBE 


QBE (QUERY-BY-EXAMPLE， 参考 [8. 14]) 是 最 为 著名 的 基于 域 演算 的 语言 。( 实际 上 
QBE 是 域 演算 和 关系 演算 的 结合 ， 但 是 更 偏重 于 域 演 算 。) 它 的 简单 明了 的 语法 ， 是 基于 在 空白 
表 中 写 人 条 目的 思想 。 举 个 例子 ， 一 个 QBE 查询 : 找 出 至 少 供应 52 供应 的 零件 中 的 一 个 的 供应 
商 名 ， 可 以 写成 下 面 的 形式 : 

S | S# SNRAME SP | S# Pp# SP | S# | P# 

站 ER 

说 明 : 用 户 请 求 系统 在 屏幕 上 显示 出 三 个 空 表 ， 一 个 供应 商 表 和 两 个 供 货 关 系 表 ， 用 户 在 表 
上 填 人 条 目 。 以 下 划 线 开始 的 条 目 是 示例 元 素 (example element) ， 也 就 是 域 演算 中 的 范围 变量 ， 
其 他 的 条 目 是 具体 的 取 值 。 用 户 要 求 系 统 输出 这 样 一 些 (“P. ”) 供应 商 名 字 (_NX) ， 如 果 供 应 
商 的 名 字 是 _SX， 那 么 供应 商 _SX 必须 供应 零件 _PX， 并 且 零 件 .PX 也 由 供应 商 S2 供应。 如 果 把 
这 个 QBE 查询 和 与 它 等 价 的 关系 演算 和 域 演算 比较 (参见 例 8. 3. 5 和 例 8. 7.4) ， 我 们 就 会 发 现 
QBE 和 它们 的 不 同 之 处 在 于 ，QBE 中 没有 明确 的 量化 >”， 这 也 是 它 简洁 易 懂 的 原因 之 一 。 对 
QBE 和 SQL 的 比较 是 非常 有 意义 的 ， 详 细 情 形 留 给 读者 在 练习 中 体会 。 

我 们 引入 一 组 例子 来 介绍 QBE 的 主要 特征 。 作 为 练习 ， 读 者 可 以 将 这 些 QBE 的 例子 和 用 纯 
域 演 算 的 表示 进行 一 下 比较 。 


例 8.8.1 找 出 位 于 Paris 且 其 状态 大 于 20 的 供应 商 的 供应 商号 ( 例 8.7. 1) 


S S# SNAME STATUS | CITY 
Pp. > 20 Paris 
我 们 注意 到 “> ”和 “ = ”的 表示 是 非常 简单 的 。 我 们 也 可 以 不 写 示例 元 素 ， 如 果 它 没有 
在 其 他 地 方 被 引用 〈 当然 显 式 地 给 出 示例 元 素 ， 例 如 了 _SX， 也 是 正确 的 ) 。 像 Paris 一 样 的 字 
符 串 可 以 不 加 引号 (加 上 引号 也 正确 ， 并 且 有 时 候 必 须 加 引号 ， 例 如 字符 串 中 包含 空格 的 
情形 ) 。 
我 们 也 可 以 把 “P. ” 写 在 靠 着 条 自行 的 位 置 ， 例 如 


S S# | SNAME | STATUS | CITY 








Pp, > 20 Paris 


这 个 例子 与 在 每 一 列 写 上 “P. ”是 等 价 的 : 


S S¥ SNAME STATUS | CITY 
P. | PP. PpP. >20 | P.Paris 


最 后 一 点 要 指出 的 是 : 用 户 可 以 对 屏幕 上 的 空 表 进 行 编辑 ， 增 加 或 删除 行 和 列 ， 加 宽 或 缩短 
列 。 表 可 以 被 裁剪 成 合适 的 状态 ， 以 便 适应 用 户 的 任何 操作 。 不 用 的 列 可 以 删除 。 例 如 ， 在 我 们 





”QUEL 中 有 相似 的 讨论 ， 参 见 [8.5]。 
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讨论 的 第 一 个 QBE 查询 中 ，SNAME 列 就 可 以 删除 ， 如 下 所 示 : 

| STATUS 人 | 

P. | >20 | Paris | 

因此 我 们 在 以 后 的 例子 中 将 省 略 查询 中 不 使 用 的 列 。 

例 8.8.2 找 出 供应 的 所 有 零件 的 零件 号 ， 消 除 重 复 的 元 组 
UNQ P. 

UNQ. 代表 唯一 〈unique) ， 类 似 于 SQL 中 的 DISTINCT。 


例 8.8.3 找 出 位 于 Paris 的 供应 商 的 供应 商号 ， 按 照 状态 的 降序 、 供 应 商号 的 升序 排序 


S | S# STATUS CITY 


S 

















P.AO(2). | P.DO(1). | Paris 


“AO. ”代表 升序 , “DO. ”代表 降序 。 括 号 里 的 整数 代表 排序 的 主 次 顺序 ， 本 例 中 ，STA- 
TUS 是 主要 排序 列 ，S# 是 次 要 排序 列 。 


例 8.8.4 找 出 位 于 Paris 或 者 其 状态 大 于 20 的 供应 商 的 供应 商号 (修改 的 例 8. 8. 1) 
表示 “ANDed” 的 条 件 写 在 同一 行 ， 而 两 个 条 件 的 “OR” 必须 写 在 不 同行 。 例 如 : 


S | S# STATUS | CITY 
Pp. Paris 
P . > 20 
这 个 查询 的 另 一 种 写法 使 用 了 条 件 金 (condition box) ， 如 下 所 示 : 
S S# STATUS | CITY 
-| P.| sr | sc -| 
CONDITIONS 
上 -a = Paris OR ST > 20 | 
条 件 盒 可 以 解决 当 条 件 太 复杂 而 不 能 在 一 列 中 写 出 的 问题 。 例 如 ， 涉 及 两 列 的 比较 ， 或 者 含 
有 聚集 操作 符 的 比较 。 
例 8.8.5 找 出 重量 在 16 和 19 之 间 (包括 16 和 19) 的 零件 
Pp# WEIGHT WEIGHT 
P. >= 16.0 <= 19.0 
例 8.8.6 找 出 所 有 零件 的 零件 号 和 零件 重量 ( 以 克 为 单位 ) ( 例 8. 6.2) 


P | p# | WEIGHT | GMWT 
P. | _PW P. PW * 454 











Pp 








例 8.8.7 找 出 供应 零件 P2 的 供应 商 名 字 ( 例 7.5. 1) 


S | S# | SNAME SP | S# | Pp# 
_SXx | P. _SX | P2 
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表 SP 中 的 行 在 这 里 隐 含 了 存在 量词 的 限制 。 这 个 查询 可 以 解释 为 : 

找 出 供应 商 SX 的 供应 商 名 字 ， 使 得 对 于 SX 存在 一 个 供 货 关 系 ， 满 足 供应 商 为 SX， 供 应 零 
件 为 P2。 

因此 QBE 隐 含 地 支持 EXISTS (注意 隐 含 的 范围 变量 作用 在 关系 上 ， 而 不 是 域 上 。 这 就 是 为 什 
么 我 们 说 QBE 包含 关系 演算 的 一 些 方面 。) 但 是 QBE 不 支持 NOT EXISTS。? 因此 ， 有 一 些 查 询 ， 
例如 ， 找 出 供应 所 有 零件 的 供应 商 名 字 ( 例 8.7.5) ， 无 法 用 QBE 表示 。QBE 不 是 关系 完备 的 。 


例 8.8.8 找 出 供应 商 所 在 地 和 零件 出 产地 在 同一 地 方 的 供应 商号 和 零件 号 对 (修改 的 


例 8. 6. 3) 
S# | cITY P | P# | cITY 
_SX | _Cx _PX | _Cx P. | _SX | _PX 
这 个 查询 需要 三 个 空 表 格 ， 一 个 S 表 ,一 个 P 表 (〈 仪 显示 相关 的 列 ) ， 一 个 结果 表 。 请 读者 


注意 一 下 为 了 把 三 个 表 连 在 一 起 而 给 出 示例 元 素 的 方式 。 这 个 查询 可 以 解释 为 : 
找 出 供应 商号 和 零件 号 对 ， 即 SX 和 PX， 使 得 SX 和 PX 的 地 点 是 同一 个 城市 CX。 


例 8.8.9 车 两 个 供应 商 在 同一 城市 ， 找 出 他 们 的 供应 商号 ( 例 8. 6. 5) 
CITY 
_C2 Pp. | _sx | _SY | 
cz 


如 果 要 求 指定 额外 条 件 .SX < _SY， 可 以 使 用 条 件 盒 。 
例 8.8.10 找 出 零件 P2 供应 的 总 量 


SP | s# | P# | ozY 
Pp2 | Qx | P.sUM. Qx 


QBE 支持 一 般 的 聚集 操作 。 
例 8. 8. 11 对 每 一 个 供应 的 零件 ， 找 出 其 零件 号 及 其 供 货 总 数量 ( 例 8. 6. 8) 


SP | S# | Pp# QTY 
G.P. | _QY |[P.sUM. 07 


“G. ”代表 分 组 (与 SQL 中 的 GROUP BY 作用 相同 ) 。 
例 8.8.12 找 出 由 多 于 一 个 供应 商 供应 的 零件 的 零件 号 
SP | s# | Pp# | CONDITIONS 
_SX | G.P. CNT._ SX >1 


例 8.8.13 找 出 重量 超过 16 磅 或 者 由 S2 提供 或 者 两 者 都 具备 的 零件 的 零件 号 ( 例 8. 7. 8) 
P# | WEIGHT SP | S# | Pp# 
_PX | > 16.0 S2 | _BY P. 医 
P- | PY 


”至 少 QBE 部 分 支持 NOT EXISTS。 实 际 上 原来 QBE 完全 支持 它 ， 但 是 却 常 带 来 麻烦 。 最 基本 的 问题 是 : 没有 办 法 
确定 众多 隐 含 的 量词 的 使 用 顺序 ， 而 这 一 点 在 出 现 NOT 时 是 十 分 重要 的 。 因 此 这 样 的 QBE 是 不 明确 的 。 详 细 的 讨 
论 可 以 参考 文献 【8.3] 和 练习 8. 2。 


S 
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例 8.8.14 将 零件 P7 (城市 Athens， 重 量 24， 名 字 和 颜色 未 知 ) 播 入 表 P 中 
”| | Pe | Se WEIGHT | CITY 
工 。 P7 24.0 Athens 
注意 “IL ”表示 插入 条 目 ， 出 现在 表 名 下 面 。 当 然 , 插 和 人 新 元 组 并 不 是 关系 演算 (或 关系 


代数 ) 中 的 操作 。 这 是 一 个 更 新 操作 ， 而 不 是 只 读 操作 。 我 们 为 了 完备 性 而 引信 了 这 个 例子 ， 
下 面 的 三 个 例子 也 是 类 似 的 情况 。 


例 8.8.15 从 供 货 关 系 中 删除 所 有 数量 大 于 300 的 元 组 


S# | QTY | 
> 300 








SP 
D. 








“D” 出 现在 表 名 下 面 。 
例 8.8. 16 ”将 零件 P2 的 颜色 改 为 黄色 ， 重 量 增加 5， 城市 改 为 Oslo 
P Pt# PNAME COLOR WEIGHT WEIGHT CITY 


P2 U.Yellow WT U. WT+5 |U.Oslo 


例 8. 8. 17 所 有 位 于 London 的 供 货 商 的 供 货 量 改 为 5 


SP S# QTY S S# CITY 
_SX | U.S _SX | London 


8.9 小 结 


我 们 已 经 简单 地 介绍 了 关系 代数 的 替代 一 一 关系 演算 。 从 表面 上 看 ， 这 两 者 是 很 不 相同 的 ， 
演算 是 描述 性 的 ， 而 代数 是 说 明 性 的 。 但 是 ， 从 更 深 一 层次 讲 ， 它 们 是 一 样 的 。 因 为 任何 一 种 演 
算 表 示 都 可 以 转换 为 代数 表示 ， 反 之 亦 然 。 

演算 有 两 种 ， 即 元 组 演算 和 域 演算 。 它 们 之 间 最 重要 的 区 别 是 : 元 组 演算 的 范围 变量 定义 在 
关系 上 ， 而 域 演算 的 范围 变量 是 定义 在 域 上 。 

元 组 演算 的 表达 包括 一 个 原型 元 组 、 一 个 可 选 的 包含 布尔 表达 式 或 合式 公式 的 WHERE 子 
句 。 此 合式 公式 可 允许 包含 量词 EXISTS 和 FORALL 、 自 由 的 和 约束 的 范围 变量 、 布 尔 操 作 符 
(AND、OR、NOT 等 ) ， 等 等 。 每 一 个 在 合式 公式 中 用 到 的 范围 变量 必须 在 原型 元 组 中 用 到 。 注 
意 ; 本 章 没 有 明确 地 讨论 这 一 点 ， 但 是 演算 表示 必须 明确 地 满足 用 于 同一 目的 的 代数 表示 ( 参 
看 7.6 节 )。 

我 们 通过 例子 说 明了 Codd 的 简约 算法 如 何 将 任意 的 演算 表示 转化 为 等 价 的 代数 表示 ， 这 样 
就 为 演算 策略 的 实现 提供 了 方便 。 我 们 再 一 次 讨论 了 关系 完备 性 ， 并 且 就 此 简单 地 讨论 了 语言 的 
完备 性 。 

我 们 也 在 元 组 演算 中 讨论 了 计算 功能 ， 它 类 似 于 代数 中 EXTEND 和 SUMMARIZE 提供 的 功 
能 。 然 后 ， 我 们 对 SQL 的 相关 特征 作 了 概述 。SQL 混合 了 代数 和 (元 组 ) 演算 。 例 如 ， 它 包括 
直接 对 JOIN 和 UNION 代数 操作 符 的 支持 ,但 是 它 也 使 用 演算 的 范围 变量 和 存在 量词 。 

SQL 查询 由 表达 式 组 成 。 通 常 ， 一 个 操作 由 一 个 选择 表达 式 组 成 ， 但 也 支持 多 种 形式 的 
JOIN 表达 式 ， 且 以 各 种 方式 通过 使 用 UNION、INTERSECT 和 EXCEPT 操作 符 把 JOIN 和 SE- 
LECT 表达 式 组 合 起 来 。 我 们 也 谈 到 了 ORDER BY 子 句 ， 它 是 对 从 (任何 种 类 的 ) 表达 式 导 出 
的 表 进 行 强制 性 排序 。 特 别 地 ， 对 于 选择 表达 式 ， 我 们 再 说 几 点 : 

s 基本 的 SELECT 子 句 ， 包 括 DISTINCT 关键 字 的 使 用 、 计 算 表 达 式 的 使 用 、 结 果 列 名 说 

明 及 “SELECT *”。 





席 8 曹 关系 演 间 155 





wm FROM 子 句 ， 包 括 范围 变量 的 使 用 。 

s WHERE 子 句 ， 包括 EXISTS 量词 的 使 用 。 

m GROUP BY 和 HAVING 子 句 ， 包 括 聚 集 操作 COUNT、SUM 、AVG 等 。 

m 在 SELECT、FROM 和 WHERE 子 句 中 使 用 子 查询 。° 

我 们 还 给 出 了 SQL 表达 式 的 概念 性 的 计算 算法 (conceptual evaluation algorithm) ， 即 SQL 选 
择 表达 式 形式 化 定义 的 轮廓 。 这 个 算法 的 摘要 包括 : (a) FROM 子 句 中 的 表 进行 笛 卡 尔 积 ， 
(b) 根据 WHERE 子 句 中 的 布尔 表达 式 进 行 筛选 ，(c) 将 结果 投影 到 SELECT 子 句 确定 的 列 上 。 
当然 这 个 算法 摘要 是 不 完全 的 ， 详 细 的 解释 请 参见 【4. 20 ] 。 

随后 ， 我 们 简单 地 介绍 了 域 演算 ， 并 认为 它 具 备 关系 完备 性 ， 尽 管 没有 证 明 。 这 样 ， 元 组 演 
算 、 域 演算 和 关系 代数 这 三 者 是 相互 等 价 的 。 最 后 简单 介绍 了 Query- By- Example， 它 是 域 演算 
思想 应 用 于 商业 的 成 功 范例 。 


习题 


8.1 设 p (x) 和 4g 是 任意 的 合式 公式 ， 其 中 x 为 自由 变量 ,分 别 为 出 现 和 不 出 现 。 下 面 哪 一 个 式 子 是 正 
确 的 ? (符号 “ => ”表示 隐 含 ， 符 号 “= ”表示 恒 等 , “A => B” 与 “B=>A” 在 一 起 使 用 时 ,就 
表示 “A=B” 。) 


a. EXISTS x ( 9) 去 9 

b. FORALL x (9 ) = 9 

Cc. EXISTS x ( p(x) AND g ) = EXISTS x ( p(x) ) AND 9 
d. FORALL x ( p(x) AND 9 ) 去 FORALL x ( p(x) ) AND 9 
e. FORALL x ( p(x} ) = ExXISTS x ( p(x) ) 

f. EXISTS x ( TRUE ) 至 TRUE 

g. FORALL x ( FALSE ) 二 FALSE 


8.2 设 p(x,y) 是 任意 的 合式 公式 , x、y 为 自由 变量 。 下 面 哪 一 种 说 法 是 正确 的 ? 
. EXISTS x EXISTS y p(x,y) ) 下 EXISTS y EXISTS x ( p(x,y) ) 

.FORALL X FORALL y p(X,y) ) 于 FORRLL y FORALL x { plx,y) ) 

本 NOT EXISTS x ( NOT p(x,y) } 

. EXISTS x ( p(x,y) 第 NOT FORALL x ( NOT p(x,y) ) 

. EXISTS x FORALL y p(x,y) ) 至 FORALL y EXISTS x ( p(x,y) ) 


( 
( 
} 
) 
( 
EXISTS y FORALL x ( p(x,y) ) 3 FORALL x EXISTS y ( p(x,y) ) 
合 


8.3 设 p(x) 和 gq(y) 是 任意 的 合式 公式 ,x、y 分 别 为 自由 变量 。 下 面 哪 一 种 说 法 是 正确 的 ? 
E 


aA. EXISTS x ( p(x) ) AND EXISTS 了 ( g(y) ) 至 
EXISTS x EXISTS y ( p(x) AND gq(y) ) 


b. EXISTS x ( IF p(x) THEN g(x) END IF ) 2 
IF FORALL x ( p(x) ) THEN EXISTS x ( q(x) ) END IF 


a 
b 
C. FORALL x ( p(x,y)} 
d 
€ 
f. 


8.4 ”再 看 一 次 这 个 查询 “ 找 出 至 少 供应 52 供应 的 零件 的 供应 商 的 供应 商号 "， 下 面 是 一 个 可 能 的 元 组 演 
算 表 达 式 : 


SX.S# WHERE FORALL SPY ( IF SPY.S# = S# ('S2') THEN 
EXISTS SPZ ( SP3.S# = SX.S# AND 
SP2.P# = SPY.P# ) 
END IF ) 


(这 里 SPZ 是 另 一 个 定义 在 供 货 表 上 的 范围 变量 。) 如 果 当前 S2 什么 零件 都 不 供应 ， 则 本 查询 返回 什 


QQ 我们 现在 发 现 ， 不 严格 地 说 ，FROM 子 名 中 的 子 查询 被 当 作 表 表 达 式 处 理 ，SELECT 子 句 中 的 子 查询 被 当 作 标 
量 表达 式 处 理 ，WHERE 子 句 中 的 表达 式 根据 内 容 的 不 同 ， 被 当 作 表 表 达 式 或 者 标量 表达 式 处 理 。 
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么 ? 如 果 本 查询 中 所 有 的 SX 都 替换 为 SPX， 它 又 有 什么 不 同 ? 
8.5 下 面 是 一 个 对 供应 商 - 零件 - 工程 数据 库 的 查询 (这 是 考虑 范围 变量 时 的 习惯 应 用 ) : 


{ PX.PNAME, PX.CITY } WHERE FORALL SX FORALL JX EXISTS SPJX 


{ SX.CITY = 'London' AND 
JX.CITY = 'Paris' AND 
SPJX.S# = SX.S# AND 
SPJX.P# = PX.P# AND 
SPJX.J# = JX.J# AND 


SPIX.QTY < QTY ( 500 ) ) 


a. 把 这 些 查 询 转化 为 自然 语言 。 
b. 对 这 个 查询 运行 DBMS， 并 “执行 ”Codd 的 简化 算法 ， 这 样 你 能 看 出 一 些 改进 吗 ? 

8.6 用 元 组 演算 表达 式 表示 查询 “取出 三 个 最 重 的 零件 "。 

8.7 思考 在 第 4 章 练习 4. 6 中 的 材料 清单 的 关系 变量 PART_STRUCTURE。 对 于 知名 的 零件 探寻 (part ex- 
plosion) 查询 “ 找 出 组 成 零件 Pl 的 任何 层次 上 的 零件 的 零件 号 ”一 一 此 查询 的 结果 ， 依 据 PART_ 
BILL， 一 定 是 从 PART_STRUCTURE 导出 的 一 个 关系 。 此 查询 最 初 不 能 用 关系 代数 或 关系 演算 独立 
地 完成 。 或 者 说 ，PART_BILL 是 一 个 可 导出 关系 ， 但 它 不 能 由 单独 的 原始 关系 代数 或 关系 演算 导出 。 
请 问 这 是 为 什么 ? 

8.8 假设 供应 商 关系 变量 $ 可 被 另 一 些 关系 变 量 (如 LS, PS，AS， 等 等 ) 所 代替 〈 每 一 个 代表 在 不 同城 
市 的 供应 商 ， 如 LS 仅仅 表示 在 伦敦 的 供应 商 的 元 组 ); 假设 我 们 不 知道 有 哪些 供应 商 所 在 城市 存在 ， 
并 因此 不 知道 有 多 少 这 样 的 关系 变量 。 对 于 查询 “此 库 中 有 供应 商 S1 吗 ?” 能 用 演算 或 代数 表示 吗 ? 
请 给 出 你 的 答案 。 

8.9 有 令 述 SQL 的 关系 完备 性 。 

8. 10 SQL 中 有 与 关系 操作 EXTEND 和 SUMMARIZE 等 价 的 操作 吗 ? 

8.11 SQL 中 有 与 比较 操作 等 价 的 操作 吗 ? 

8.12 对 于 查询 “ 找 出 供应 零件 P2 的 供应 商 名 ”， 请 用 尽 可 能 多 的 SQL 表示 方法 进行 表示 。 

查询 练习 
下 面 的 练习 要 用 到 供应 商 -零件 -工程 数据 库 。 要 求 对 下 面 的 每 一 个 查询 给 出 一 个 表达 式 。( 作 为 一 

个 有 意思 的 变换 ， 你 也 可 以 先 看 解答 并 用 自然 语言 来 解释 这 个 表达 式 。) 

8.13 写 出 习题 7.13 ~7. 50 的 元 组 演算 表达 式 。 

8.14 写 出 习题 7.13 ~7. 50 的 SQL 表达 式 

8.15 写 出 习题 7. 13 ~7. 50 的 域 演算 表达 式 。 

8.16 写 出 习题 7. 13 ~7. 50 的 QBE 表示 。 
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式 模型 。 这 一 模型 叫做 扩展 三 值 谓 词 演算 (Extended Three - Valued Predicate Calculus，E3VPC ) ， 
它 在 很 大 程度 上 基于 有 名 的 数学 概念 。 这 里 也 给 出 了 将 一 个 一 般 的 E3VPC 表达 式 转化 为 一 个 规 
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UHman 的 这 本 书 比 我 们 这 本 书 更 加 规范 地 处 理 了 关系 演算 及 其 相关 方面 。 特 别 地 ， 它 讨论 
了 演算 表达 式 安全 性 的 概念 。 如 果 我 们 对 这 一 演算 稍 作 改 动 ， 会 变 得 更 有 意义 。 因 为 这 一 -演算 中 
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这 种 演算 表示 中 ， 查 询 “ 找 出 在 伦敦 的 供应 商 ” 看 起 来 似乎 如 下 表示 : 


X WHERE X € S AND X.CITY = 'London' 


很 明显 ， 这 种 演算 带 来 的 一 个 问题 (不 仅仅 是 这 一 个 问题 ) 是 它 允 许 如 下 的 查询 : 


X WHERE NOT (Xe S ) 


这 样 的 表达 式 是 不 安全 的 ， 因 为 它 不 能 返回 有 限 的 结果 集 ( 非 $ 元 组 的 所 有 项 是 无 限 的 ) 。 于 是 ， 
必须 有 一 定 的 规则 去 强制 保证 那些 合法 的 表达 式 是 安全 的 。 这 些 规则 在 Ullman 的 这 本 书 里 作 了 
描述 (包括 元 组 演算 和 域 演算 ) 。 我 们 注意 到 ，Codd 的 最 初 的 演算 并 没有 包括 这 些 规则 。 
Moshé M. Zloof: “Query- By- Example,” Proc. NCC 44, Anaheim, Calif. ( May 1975 ) . Montvale, 
N. J. : AFIPS Press (1977). 

Zloof 是 QBE 的 最 初 的 发 明 者 及 设计 者 。 这 篇 文章 是 Zloof 在 这 方面 所 有 论文 的 第 一 篇 。 





第 9 章 完 整 性 
9.1 引言 


关系 模型 的 完整 性 部 分 是 这 些 年 来 变化 最 大 的 一 部 分 〈 也 许 我 们 应 称 其 为 进化 而 不 是 变 
化 )。 最 初 人 们 只 注重 主 外 码 上 的 变化 (简称 “ 码 ”) ， 然 而 ， 完 整 性 约束 在 更 广 范围 内 的 重要 性 
(的 确 十 分 重要 ) 逐渐 得 到 了 越 来 越 多 的 理解 和 赞同 。 与 此 同时 ， 关 于 码 的 一 些 古怪 的 问题 渐渐 
多 了 起 来 。 本 章 从 结构 上 反映 了 这 样 的 变化 ， 首 先 它 较为 深入 地 讨论 了 更 广 范围 内 的 完整 性 约束 
问题 ， 然 后 讨论 了 码 (仍然 是 一 个 实际 中 的 主要 问题 )。 

不 严格 地 说 ， 完 整 性 约束 是 数据 库 相 关 的 布尔 表达 式 ， 需 要 在 任何 时 候 得 到 满足 。 这 样 的 约 
东 被 视 为 是 关于 一 些 “ 商 业 规 则 ”的 正规 表达 式 [9. 15] 一 一 为 了 本 章 介 绍 需 要 ， 尽 管 商业 规 
则 通常 用 自然 语言 表达 , 但 有 时 也 用 完整 性 规则 描述 。 下 面 列 出 了 一 些 例子 ， 它们 都 是 基于 
“供应 商 和 零件 ”数据 库 ， 

1) 每 个 供应 商 的 状态 值 都 在 1 到 100 的 范围 内 到 值 ( 含 1 和 100)。 

2) 每 个 伦敦 供应 商 的 状态 号 都 是 20。 

3) 如 果 有 一 些 零件 的 话 ， 它 们 中 至 少 有 一 个 是 蓝 色 的 。 

4) 不 允许 出 现 两 个 不 同 的 供应 商 拥有 相同 的 供应 商号 。 

5) 每 次 供 货 都 要 有 一 个 存在 的 供应 商 。 

6) 不 允许 状态 号 小 于 20 的 供应 商 供应 任何 数量 多 于 500 的 零件 。 

在 本 章 中 ， 我 们 将 广泛 使 用 以 上 的 例子 。 , 

显然 ， 约 束 应 向 DBMS 正式 声明 ， 然 后 DBMS 强制 执行 它们 。 声 明 约 束 只 是 用 到 了 数据 库 
语言 的 相关 特性 ; 而 执行 时 ，DBMS 监控 更 新 程序 将 有 可 能 违反 并 拒绝 执行 约束 。 以 下 是 与 上 面 
列 出 的 第 一 个 例子 (在 Tutorial D 中 ) 相关 的 正式 声明 : 


CONSTRAINT SC1 
IS EMPTY ( S WHERE STATUS < 1 OR STATUS > 100 )}; 


为 了 强制 执行 这 个 约束 ，DBMS 将 监控 所 有 试图 插 人 一 个 新 的 供应 商 或 者 改变 供应 商 状 态 的 
操作 [9.5]。 
当然 ， 每 当 一 个 约束 被 首次 声明 时 ， 系 统 必须 检查 数据 库 在 当前 状况 下 是 否 能 满足 它 。 如 果 
不 能 ， 约 东 必 须 被 拒绝 ; 否则 ， 约 束 被 接受 一 一 也 就 是 说 ， 该 约束 被 存 于 系统 目录 中 。 顺 便 说 一 
名 ， 请 注意 例子 中 的 约束 名 SC1 (“供应 商 约 束 1”)。 假 定 该 约束 被 DBMS 所 接受 ， 它 将 注册 到 
系统 字典 表 的 SC1 的 名 下 ， 当 试图 违反 它 时 ， 约 东 名 SC1 就 会 出 现在 系统 生成 的 错误 报告 消息 
中 。 
下 面 是 例 1 的 两 个 更 可 能 的 式 子 ， 基 于 Tutorial D 的 演算 版 本 《这 里 的 SX 是 在 供应 商 上 的 
范围 变量 ) 
CONSTRAINT SC1 
NOT EXISTS SX ( SX.STATUS < 1 OR SX.STATUS > 100 ); 
CONSTRAINT SC1 
FORALL SX ( SX.STATUS > 1 AND SX.STATUS < 100 )}; 
当然 ， 这 三 个 声明 是 等 价 的 。 然 而 在 本 章 中 ， 我 们 的 讨论 将 更 多 地 基于 演算 而 非 代 数 ， 原 因 
会 随 着 讨论 的 深入 而 逐渐 清晰 。 作 为 练习 ， 你 可 能 想 试 着 对 我 们 给 出 的 基于 演算 的 例子 得 出 相应 
的 代数 形式 。 
当然 ， 如 果 现 有 的 约束 已 不 再 需要 了 ， 我 们 也 需要 有 一 种 去 除 它们 的 方法 : 


DROP CONSTRAINT <constraint name> ; 





9.2 进一步 讨论 


一 般 的 完整 性 约束 是 建立 在 某 个 变量 或 某 些 变量 的 组 合 上 的 。。 于 是 ， 一 个 给 定 的 变量 属于 
某 种 类 型 表示 出 一 种 前 方 (priori) 的 约束 〈 能 通过 变量 推测 的 值 一 定 是 该 变量 类 型 的 值 ) 。 于 
是 ， 我 们 立刻 得 出 这 样 一 个 结论 〈 的 确 ， 它 只 是 一 种 特殊 情况 ) ， 一 个 给 定 的 关系 变量 的 所 有 属 
性 属于 某 个 特定 类 型 的 事实 代表 了 一 个 在 问题 关系 变量 上 的 前 方 约束 。 例 如 ， 关 系 变量 S (供应 
商 ) 被 约束 包含 特定 的 值 ， 它 们 是 一 些 关 系 ， 其 中 每 一 个 S# 值 是 一 个 供应 商号 (一 个 S# 类 型 
值 ) ， 每 个 SNAME 的 值 是 个 名 字 (NAME 类 型 的 值 ) ， 等 等 。 

然而 ， 这 些 简单 的 “前 方 ” 约 东 当然 不 是 仅 有 的 约束 ; 事实 上 ，9. 1 节 给 出 的 6 个 例子 中 没 
有 一 个 是 该 意义 上 的 前 方 约束 。 再 次 考虑 例 1 : 

1) 每 个 供应 商 的 状态 值 都 在 1 到 100 的 范围 内 取 值 ( 含 1 和 100) 。 

更 精确 地 讲 ， 如 果 s 是 供应 商 ， 那 么 s 有 一 个 在 1 到 100 ( 含 1 和 100) 范围 内 的 状态 值 。 

下 面 是 一 个 更 精确 的 〈 或 更 正规 的 ) 方式 :” 


FORALL s# e S#, sn € NAME, st € INTEGER, SC € CHAR 
( IF { S# s#, SNAME sn, STATUS st, CITY sc } e S 
THEN st > 1 AND st < 100 ) 


该 正规 表达 式 可 以 读 作 以 下 方式 (很 呆板 的 说 法 ): 

对 于 所 有 的 供应 商号 s#， 所 有 的 名 字 sn， 所 有 的 整数 st 和 所 有 的 字符 囊 sc， 如 果 一 个 拥有 S 
# s#，SNAME sn，STATUS st 和 CITY sc 的 元 组 出 现在 供应 商 变量 中 ， 那 么 st 大 于 等 于 1 且 小 于 
等 于 100。 

也 许 现在 你 能 明白 ， 为 什么 刚才 我 们 会 给 出 例 1 的 替代 的 自然 语言 版 本 。 事 实 上 ， 那 个 替代 
的 版 本 相应 的 正规 表达 式 以 及 呆板 的 自然 语言 模拟 总 体 上 都 有 某 种 “形式 ”， 看 起 来 如 下 : 

如 果 某 元 组 出 现在 某 个 关系 变量 中 ， 那 么 那个 元 组 满足 一 定 的 条 件 。 

这 种 “形式 ”是 一 个 逻辑 蕴涵 的 例子 (有 时 称 为 物质 包含 ) 。 我 们 以 前 曾 遇 到 过 这 种 构造 ， 
在 第 8 章 ; 它 以 通用 形式 出 现 : 


IF p THEN 9 


p 和 9g 都 是 布尔 表达 式 。 分 别称 作 前 项 和 后 项 。 如 果 p 取 真 值 ，q 取 假 值 ， 则 整个 表达 式 取 假 值 ， 
其 他 情况 取 真 值 ; 换言之 , 下 p THEN 4 本 身 是 一 个 布尔 表达 式 ， 它 逻辑 上 等 价 于 (NOT p) OR 
qo 

顺便 说 一 下 ， 注 意 一 下 前 面 的 形式 是 如 何 默 认 包 含 必要 的 FORALL 量词 的 一 一 “如 果 一 个 
元 组 出 现 ” 默 认 表 示 “ 全 部 的 元 组 都 出 现 ”。 

现在 我 们 进一步 类 似 地 分 析 例 2 到 例 6 (但 忽略 呆板 的 自然 语言 式 子 )。 注 意 : 接 下 来 的 式 
子 并 非 是 唯一 的 ， 也 不 一 定 是 最 简单 的 ， 但 它们 至 少 是 正确 的 。 同 时 注意 ， 每 个 例子 都 至 少 表示 
了 一 个 新 的 观点 。 

2) 每 个 London 供应 商 的 状态 号 都 是 20。 


FORALL s# € S#, sn < NAME, st € INTEGER, sc € CHAR 

( IF { S# Ss#, SNAME sn, STATUS st, CITY sc } e S 
THEN { IF sc = ‘London' 
THEN st = 20 ) ) 


在 这 个 例子 中 ,蕴涵 的 结果 本 身 是 一 个 蕴涵 。 
3) 如 果 有 一 些 零 件 的 话 ， 它 们 中 至 少 有 一 个 是 蓝 色 的 。 





昌 ”完整 性 约束 适用 于 ( 至少 原则 上 ) 所 有 类 型 的 变量 ， 然 而 ， 很 明显 ， 在 本 书 中 我 们 主要 特 指 关 系 变量 。 
全 ”请 注意 这 些 正式 的 例子 中 用 的 语法 既 不 是 Tatorial D (Tutorial D 版 本 的 例子 稍 后 给 出 ) ， 也 不 是 我 们 在 第 8 章 
中 为 关系 定义 的 语法 。 尽 管 看 起 来 相似 (特别 是 关于 域 的 形式 ) 。 
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IF 
EXISTS p# <E P#, pn < NAME, pl € COLOR, pw € WEIGHT, pc < CHAR 

( { P# p#, PNAME pn, COLOR pl, WEIGHT pw, CITY pc } e PP ) 
THEN 
EXISTS p# < P#, pn € NAME, pi € COLOR, pw € WEIGHT, pc < CHAR 

( { P# p#, PNAME pn, COLOR pl, WEIGHT pw, CITY pc } e Pp 

AND pl = COLOR ('Blue') ) 
注意 ， 我 们 不 能 只 说 “至 少 有 一 个 零件 是 蓝 色 的 ”一 一 我 们 必须 考虑 到 没有 任何 零件 的 情 
况 。 注 意 : 尽管 这 种 情况 可 能 不 明显 ， 本 例 同 前 两 个 例子 一 样 遵 从 同样 的 通用 形式 。 下 面 是 一 个 


可 以 使 本 观点 更 加 清楚 的 替代 公式 。 


FORALL p# € P#, pn es NAME, pl < COLOR, pw € WEIGHT, pc < CHAR 
( IF { P# pi#, PNAME pn, COLOR pl, WEIGHT pw, CITY pc } e Pp 
THEN EXISTS gq# € P#, gn € NAME, gl <e COLOR, 
gw € WEIGHT, gc € CHAR 
( { P# gq#, PNAME qn, COLOR gl, 
WEIGHT gw, CITY gc } Eee 了 
AND gl = COLOR ('Blue') ) ) 


4) 不 允许 出 现 两 个 不 同 的 供应 商 拥有 相同 的 供应 商号 。 


FORALL x# < S#, xn e NAME, xt ec INTEGER, xc € CHAR, 
y# < S#, yn ce NAME, yt E INTEGER, yc € CHAR 
( IF { S# x#, SNAME xn, STATUS xt, CITY xc } € S AND 
{ S# y#, SNAME yn, STATUS yt, CITY yc } e S 
THEN ( IF X# = y# 
THEN xn = yn AND xt = yt AND xc = yc ) ) 

这 个 表达 式 仅 仅 是 “ |{S# | 是 供应 商 的 一 个 候选 码 或 至 少 是 一 个 超 码 ” 的 正规 声明 ; 于 是 
码 约 束 仅 是 一 般 约束 的 特例 。Tutorial D 语法 KEY | S#| 可 能 是 前 面 的 元 长 表达 式 的 一 种 简单 记 
法 (顺便 注意 一 下 括号 : 码 通常 情况 下 是 属性 的 集合 一 一 尽管 当前 讨论 的 集合 只 包含 一 个 属 
性 一 一 因此 我 们 把 码 属性 包含 在 括号 中 ， 至 少 在 正式 的 上 下 文 之 中 是 这 样 。) 注意 : 在 9.10 节 中 
详细 讨论 了 候选 码 和 超 码 。 

顺便 注意 一 下 ， 本 例 采 用 了 总 体形 式 : 

IF 一 些 元 组 出 现在 某 些 关 系 变量 中 ，THEN 那些 元 组 满足 一 定 的 条 件 。 

比较 例 2 和 例 3， 它 们 都 与 例 1 有 相同 的 形式 (我 们 稍 后 将 要 看 到 的 例 5 也 是 一 样 ) 。 与 之 

IF 某 些 元 组 出 现在 某 些 关系 变量 中 ，THEN 那些 元 组 满足 一 定 的 条 件 。 

后 一 种 形式 适用 于 通用 的 完整 性 约束 (前 两 种 可 视 为 通用 情况 的 特例 ) 。 

5) 每 次 供 货 都 要 有 一 个 存在 的 供应 商 。 

FORALL s# & S#, p# € P#, 9g € QTY 

( IF { S# s#, P# p#, QTY 9 } € SP 


THEN EXISTS sn € NAME, st € INTEGER, sc € CHAR 
( { S# s#, SNAME sn, STATUS st, CITY sc } & S ) ) 


这 个 表达 式 是 {S#} 是 供 货 的 一 个 外 码 的 正规 声明 ， 与 供应 商 候选 码 {1S#| 匹配 ; 于 是 ， 
外 码 约束 也 只 是 通用 完整 性 约束 的 一 个 特例 同样， 留意 9.10 节 的 进一步 讨论 )。 注 意 ， 本 例 


包含 两 个 不 同 的 关系 变量 ，SP 和 S， 而 例 1 至 例 4 都 只 包含 一 个 。 
6) 不 允许 状态 号 小 于 20 的 供应 商 供应 任何 数量 多 于 500 的 零件 。 


FORALL s# € S#, sn E NAME, st <c INTEGER, sc e CHAR, 
p# < P#, gq E QTY 
( IF { S# Ss#, SNANE sn, STATUS st, CITY sc } € S AND 
{ S# s#, P# p#, OTY 9 } € SP 





G 本 书 的 上 一 版 使 用 术语 关系 变量 约束 表示 一 个 只 包含 一 个 关系 变量 的 约 东 ， 使 用 术语 数据 库 约束 表示 包含 多 于 
一 个 的 约束 。 正 如 我 们 将 在 9.9 节 中 看 到 的 那样 ， 这 一 区 别 更 多 是 语义 上 的 而 不 是 逻辑 上 的 ， 这 一 点 在 接 下 来 
的 文章 中 将 不 再 强调 。 





THEN st > 20 OR g < QTY ( 500 ) ) 


本 例 也 包含 两 个 不 同 的 关系 变量 ,但 它 不 是 外 码 约 束 。 

Tutorial D 例子 

我 们 以 例 2 ~6 的 Tutorial D 版 本 来 结束 本 节 的 讨论 。 我 们 采用 关于 范围 变量 名 称 的 习惯 
用 法 。 

1) 每 个 London 供应 商 的 状态 号 都 是 20。 


CONSTRAINT SC2 
FORALL SX ( IF SX.CITY = 'London 
THEN SX.STATUS = 20 END IF ); 


注意 ， 在 Tutorial D 中 逻辑 蕴含 (IF/THEN 表达 式 ) 包含 一 个 “END IF” 结 束 符 。 
2) 如 果 有 一 些 零件 的 话 ， 它 们 中 至 少 有 一 个 是 蓝 色 的 。 
CONSTRAINT PC3 


IF EXISTS PX ( TRUE ) 
THEN EXISTS PX ( PX.COLOR = COLOR ('Blue') ) END IF ; 


3) 不 允许 出 现 两 个 不 同 的 供应 商 拥有 相同 的 供应 商号 。 


CONSTRAINT SC4 
FORALL SX FORALL SY ( IF SX.S# = SY.S# 
THEN SX.SNAME = SY.SNAME 
AND SX.STATUS = SY.STATUS 
AND SX.CITY = SY.CITY 
END IF )}; 


4) 每 次 供 货 都 要 有 一 个 存在 的 供应 商 。 


CONSTRAINT SSP5 
FORALL SPX EXISTS SX { SX.S# = SPX.S# ) ; 


5) 不 允许 状态 号 小 于 20 的 供应 商 供应 任何 数量 多 于 500 的 零件 。 


CONSTRAINT SSP6 
FORALL SX FORALL SPX 
{ IF SX.S# = SPX.S# 
THEN SX. STATUS > 20 OR SPX.QTY < 500 END IE ); 


9. 3 谓词 和 命题 
再 次 考虑 例 1 的 正式 形式 (每 个 供应 商 的 状态 值 都 在 1 到 100 ( 含 1 和 100) 的 范围 内 ) ; 


FORALL s# € S#, sn € NAME, st € INTEGER, sc < CHAR 
( IF { S# s#, SNAME sn, STATUS st, CITY sc } € S 
THEN st > 1 AND st < 100 ) 


这 个 正式 形式 是 一 个 布尔 表达 式 。 注 意 ， 它 包含 一 个 变量 ; 供应 商 关系 变量 $。 因此 ,我 
们 不 能 判断 表达 式 的 值 是 多 少 一 一 即 直 到 我 们 给 该 变量 赋予 具体 值 的 时 候 ， 才 能 知道 最 后 的 结 
果 。 当 实例 化 谓词 ， 换 句 话说， 想 检 查 约束 的 一 一 这 个 约束 是 由 我 们 提供 的 ， 作 为 关系 ， 即 关系 
变量 $ 的 当前 值 的 实 参 (关系 变量 S 是 唯一 的 形 参 时 ) ， 表 达 式 才 会 被 重新 求 值 。 

现在 ,我们 真正 地 实例 化 一 个 谓词 ， 实 际 上 就 是 用 一 些 实 参 代替 唯一 的 形 参 ， 我 们 建立 一 个 
不 包含 任何 变量 的 真 值 表达 式 ， 这 种 方法 同样 也 适用 于 包含 2 个 、3 个 、4 个 或 任意 个 关系 变量 
的 约束 。 在 任何 情况 下 ， 当 我 们 想 要 对 表达 式 求 值 即 检查 约束 时 ， 我 们 用 可 应 用 关系 变量 的 当前 
值 换 每 一 个 参数 ， 得 到 一 个 不 包含 任何 变量 的 真 值 表达 式 ， 即 命题 。 一 个 命题 要 么 为 真 ， 要 么 为 
假 。 明 确 地 说 ， 可 以 把 命题 看 作 退 化 的 谓词 ， 就 像 是 我 们 在 前 一 章 中 看 到 的 参数 为 空 的 谓词 。 这 





GQ 它 涉及 儿 个 范围 变量 ,但 是 我 们 在 第 8 章 已 经 看 到 ,范围 变量 在 编程 语言 中 不 是 变量 ， 本 章 我 们 使 用 术语 变量 
特 指 编程 语言 中 的 变量 。 
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里 有 一 些 简 单 的 例子 : 

太阳 是 恒星 。 

a 月 亮 是 恒星 。 

a 太阳 距 我 们 的 距离 比 月 亮 远 。 

a 布什 在 2000 年 赢得 了 美国 总 统 竞选 。 

这 些 命题 的 真 假 判断 我 们 在 习题 中 完成 。 注 意 ， 并 不 是 所 有 的 命题 都 是 正确 的 ， 认 为 每 个 命 
题 都 为 真 这 种 想法 是 错误 的 。 

本 节 的 核心 在 于 : 形式 化 的 约束 描述 为 谓词 。 然 而 ， 当 检查 约束 时 ， 需 要 具体 的 参数 才能 判 
断 真 假 ， 因 此 形成 了 “命题 ”。 


9.4 关系 变量 谓词 和 数据 库 谓 词 


显然 ， 一 个 给 定 的 关系 变量 将 受到 许多 约束 的 限制 。 令 R 是 一 个 关系 变量 ， 于 是 R 的 关系 
变量 谓词 是 用 于 RR (或 涉及 及 ) 的 所 有 约束 的 逻辑 与 或 合 取 (conjunction)。 这 里 有 可 能 产生 混 
淆 : 正如 我 们 已 知 的 那样 ， 每 个 约束 本 身 是 一 个 谓词 ; 然而 ，R 的 关系 变量 谓词 是 作用 于 R 的 所 
有 独立 谓词 的 合 取 。 例 如 ， 供 应 商 和 零件 数据 库 的 约束 (除了 在 前 约束 )， 那 么 对 应 供应 商 的 关 
系 变量 谓词 是 数字 1、2、4、5 和 6 的 合并 ， 同 时 ， 供 货 的 关系 变量 谓词 是 5 和 6 的 合并 。 注 意 ， 
这 两 个 关系 多 少 有 一 点 “互相 重 琶 " ， 因 为 它们 在 组 成 上 有 公共 的 约束 。” 

现在 令 R 是 一 个 关系 变量 , 令 RP 是 及 的 关系 变量 谓词 。 显 然 ， 当 只 代表 了 RP 中 的 R 时 
( 当 RP 中 其 他 任何 需要 的 参数 都 已 经 确定 时 ) ，R 不 允许 是 一 个 具体 的 数值 。 于 是 ， 现 在 我 们 可 
以 引入 黄金 法 则 (第 一 版 ) : 

如 果 一 个 更 新 操作 将 使 一 个 关系 变量 处 于 违反 自身 菜 个 谓词 的 状态 这样 的 更 新 是 被 禁 
止 的 。 

现在 , 令 DD 是 一 个 数据 库 ,” 并 令 DD 只 包含 关系 变量 R1,R2,…,Rn。 令 对 应 的 关系 变量 谓词 
分 别 为 RP1，RP2，…，RPn。 于 是 DD 对 应 的 数据 库 谓 词 DP， 是 所 有 的 关系 变量 谓词 的 合 取 : 


DP 要 RP]1 AND RP2 AND ... AND RPn 


下 面 是 扩展 的 (更 一 般 的， 也 是 最 终 的 ) 黄金 法 则 : 

如 果 一 个 更 新 操作 将 使 一 个 数据 库 处 于 违反 自身 某 个 谓词 的 状态 ， 这 样 的 更 新 是 被 禁止 的 。 

当然 ， 一 个 数据 库 谓词 会 取 FALSE 当 且 仅 当 组 成 它 的 关系 变量 谓词 中 至 少 一 个 也 取 
FALSE。 一 个 关系 变量 谓词 会 取 FALSE 当 且 仅 当 组 成 它 的 约束 中 至 少 一 个 也 取 FALSE。 注 意 : 
正如 我 们 看 到 的 ， 两 个 不 同 的 关系 变量 谓词 RPi 和 RPj (iz j) 可 能 包含 公共 的 约束 。 因 此 , 在 
数据 库 谓词 DP 中 相同 的 约束 可 能 出 现 许多 次 。 从 逻辑 的 观点 来 看 ， 这 种 情况 并 没有 什么 危害 ， 
因为 如 果 c 是 一 个 约束 ， 那么 c AND c 与 c 逻辑 上 等 价 。 因 此 ， 尽 管 在 这 种 情况 下 系统 取 值 c 一 
次 (而 非 两 次 ) 显然 是 我 们 所 期 望 的 ， 但 这 是 系统 实现 方面 的 而 非 模型 方面 的 问题 。 


9.5 约束 检查 


本 节 着 重 解决 两 个 问题 ， 一 个 与 实现 有 关 ， 另 一 个 与 模型 有 关 ， 二 者 都 与 检查 已 声明 的 约束 
有 关 。 首 先 让 我 们 考虑 实现 问题 。 再 次 参见 例 1， 它 有 效 地 表明 如 果 某 个 元 组 出 现在 关系 变量 5 
中 ， 那 么 元 组 必须 满足 某 个 约束 《“ 状 态 范围 从 1 到 100”) 。 特 别 注意 约束 涉及 在 关系 变量 中 的 
元 组 。 因 此 很 显然 ， 如 果 我 们 在 视图 中 插入 一 个 新 的 状态 号 为 《比方 说 ) 200 的 供应 商 元 组 ， 接 
下 来 发 生 的 一 系列 事件 将 是 : 

1) 插入 那个 新 的 元 组 。 





OG 本 书 的 以 前 版 本 为 关系 变量 R 定义 了 关系 变量 谓词 ， 即 应 用 于 R 的 所 有 关系 变量 约束 的 并 。 但 现在 我 们 在 
[3.3] 中 定义 它 为 所 有 约束 的 并 ， 而 不 只 是 应 用 于 RR 的 关系 变量 的 约束 。 对 于 发 现 这 一 变化 ， 并 产生 术语 混淆 
的 读者 ， 我 们 表示 道歉。 

当然 ，D 是 一 个 变量 〈 见 文献 [3.31] 注解 ) ， 因 此 受 完整 性 约束 限制 。 





2) 检查 约束 。 

3) 撤消 更 新 〈 因 为 检查 失败 ) 。 

但 这 将 是 荒 启 的 ! 很 明显 ， 我 们 想 在 第 一 个 操作 “插入 ”完成 之 前 就 捕获 错误 。 因 此 实现 
必须 在 插入 操作 完成 之 前 ， 用 约束 的 正规 表达 式 来 推断 将 在 待 插入 元 组 上 执行 的 恰当 的 一 个 或 多 
个 检查 。 

原则 上 ， 推 理 过 程 是 相当 直接 的 。 具 体 来 说 ， 如 果 数 据 库 谓词 包含 如 下 形式 的 约束 


IF { S# S#, SNAME sn, STATUS st, CITY sc } < S 
THEN ... 


即 ， 若 整个 数据 库 谓词 中 的 某 些 蕴涵 的 前 项 以 “一 些 元 组 出 现在 S 中 ”的 形式 出 现 ， 那 么 蕴涵 的 后 
项 本 质 上 讲 是 一 个 在 将 要 插入 关系 变量 S 的 元 组 上 的 约束 。 注 意 ; 如 果 数据 库 是 按照 第 13 章 介绍 
的 正 交 设 计 诛 理 设计 的 话 ， 假 设 DBMS 具有 一 致 性 ， 那 么 每 一 个 都 要 满足 预先 定义 的 规则 。 

现在 ， 我 们 转向 讨论 模型 的 问题 〈 当然 ， 它 是 更 为 基础 的 问题 ) 。 再 次 考虑 到 黄金 法 则 : 

如 果 一 个 更 新 操作 将 使 一 个 数据 库 处 于 违反 自身 某 个 谓词 的 状态 ， 这 样 的 更 新 是 被 禁止 的 。 

尽管 我 们 并 没有 在 9. 4 节 中 显 式 地 声明 这 一 点 ， 你 也 许 已 经 意识 到 ， 这 个 法 则 中 所 有 的 约束 
检查 都 是 立即 的 。 为 什么 呢 ? 因 为 它 涉及 更 新 操作 而 非 事务 操作 ( 见 下 一 小 段 )。 因 此 ， 事 实 上 
黄金 法 则 在 声明 结束 的 地 方 被 满足 ， 而 且 根本 没有 延迟 或 提交 时 间 的 完整 性 检查 。 

现在 ， 你 可 能 已 经 了 解 到 刚才 的 问题 ( 即 所 有 的 约束 检查 都 是 立即 的 ) 是 非常 不 正规 的 ; 
许多 文献 (包括 本 书 的 早期 版 本 ) 认为 (或 简单 假定 ) : “完整 性 单元 ”是 事务 并 且 某 个 检查 至 
少 必须 被 推迟 到 事务 结束 〈 即 提交 时 ) 。 然 而 ， 有 充分 的 理由 表明 为 什么 事务 作为 “完整 性 单 
元 ”是 不 合适 的 ， 而 声明 才 是 真正 的 单元 。 不 幸 的 是 ， 若 没有 一 定 的 关于 事务 概念 的 背景 知识 ， 
是 不 太 可 能 去 解释 那些 原因 的 。 因 此 ， 我 们 把 详细 的 讨论 推迟 到 第 16 章 ; 在 这 之 前 ， 我 们 简单 
认为 (并 未 深入 修正 ) ， 立 即 检查 在 逻辑 上 是 正确 的 。 然而， 一 个 支持 我 们 的 观点 的 理由 可 在 
本 章 末尾 的 文献 [9. 16] 的 注解 中 找到 。) 


9.6 内 部 谓词 与 外 部 谓词 


我 们 已 经 知道 ， 每 个 关系 变量 有 一 个 关系 变量 谓词 ， 并 且 整 个 数据 库 有 一 个 数据 库 谓 词 。 当 
然 ， 当 前 讨论 的 谓词 都 是 “系统 能 够 理解 的 谓词 ": 它们 被 正式 地 声明 (事实 上 ， 它 们 是 数据 库 
定义 的 一 部 分 ) ， 并 且 它 们 也 被 系统 强制 执行 。 基 于 这 些 原 因 ， 为 了 简便 ， 有 时 候 把 当前 我 们 讨 
论 的 谓词 具体 称 为 内 部 谓词 一 主要 是 因为 关系 变量 和 数据 库 也 都 有 外 部 调 词 ， 这 一 点 我 们 将 继 
续 讨 论 。 

首先 ， 最 重要 的 一 点 是 ， 内 部 谓词 具有 正式 的 形式 ， 外 部 谓词 只 是 一 种 不 正式 的 形式 。 不 严 
格 地 讲 ， 内 部 谓词 描述 了 数据 对 于 系统 的 意义 ; 相反 ， 外 部 谓词 描述 了 数据 对 于 用 户 的 意义 。 当 
然 ， 用户 除 了 需要 理解 外 部 谓词 ， 也 要 理解 内 部 谓词 ， 但 是 ， 系 统 能 且 只 能 理解 内 部 谓词 。 事 实 
上 , 不 严格 地 说 ， 一 个 给 定 的 内 部 谓词 是 系统 对 于 相应 的 外 部 谓词 的 大 致 理解 。 

让 我 们 具体 来 看 关系 变量 。 正 如 上 面 所 说 ， 给 定 关 系 变量 的 外 部 谓词 是 基本 上 描述 了 关系 变 
量 对 于 用 户 的 含义 。 例 如 ， 对 于 供应 商 关 系 变量 $5， 外 部 谓词 可 以 作 如 下 描述 : 

供应 商 S 具有 名 字 SNAME， 状态 STATUS ， 位 于 城市 CITY。 而 有 全 ， 状 态 值 在 1 到 100 ( 含 
1 和 100) 之 间 ， 如 果 在 伦敦 即 为 20。 任 意 两 个 不 同 的 供应 商都 具有 不 同 的 供应 商号 。 

为 了 讨论 方便 ， 我 们 将 用 下 面 简单 的 描述 代替 谓词 ; 

供应 商 S# 名 为 SNAME， 具 有 状态 STATUS ， 位 于 城市 CITY。 





镶 ” 在 这 里 我 们 的 确 需要 严格 一 些 ， 但 更 准确 地 描述 需要 部 分 依赖 于 我 们 正在 处 理 的 特殊 的 语言 。 为 了 当前 的 目的 ， 
我 们 认为 约束 必须 在 每 一 个 自身 不 在 语法 上 内 其 其 他 声明 的 声明 的 末尾 被 满足 。 或 不 太 严格 地 讲 ， 约 东 必 须 在 
分 号 的 地 方 被 满足 。 

@@ 第 3 章 和 第 6 章 讨论 过 , 但 只 称 其 为 谓词 。 事 实 上 ， 我 们 在 整 本 书 中 都 使 用 术语 “谓词 ”来 特别 表示 外 部 谓词 。 
只 有 一 个 例外 ， 是 在 第 7 章 讨论 选择 操作 的 时 候 ， 我 们 说 选择 的 条 件 是 一 个 谓词 ， 但 它 不 是 一 个 外 部 谓词 。 
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(毕竟 ， 外 部 谓词 只 是 一 个 非 正式 的 描述 ， 因 此 我 们 尽 可 能 简单 地 描述 它 。) 

注意 ， 下 面 的 描述 是 一 个 谓词 : 它 具 有 四 个 参数 (S#, SANME，STATUS, CITY) ， 分 别 对 
应 变量 的 四 个 属性 ,” 当 赋予 变量 具体 的 值 时 ， 我 们 将 得 到 相应 的 命题 〈 分 为 真 、 假 两 类 ) 。 因 
此 ， 每 一 个 记录 都 可 以 被 当 作 是 一 个 命题 。 有 一 点 非常 重要 ， 一 - 些 特殊 的 命题 〈 即 元 组 $ 的 当 
前 值 ) 为 真 。 例 如 ， 如 果 元 组 


{ S# S#('S1'), SNAME NAME('Smith’'), STATUS 20, CITY 'London' } 


在 某 一 给 定时 间 内 出 现存 关系 变量 S 中 ， 我 们 则 认为 该 命题 正确 ， 即 确实 存在 一 个 供应 商 ， 其 供 
应 商号 为 SI， 名 字 为 Smith， 状 态 20， 位 于 伦敦 。 也 就 是 说 : 


IE(SEeS ) = TRUE THEN XPS ( s } = TRUE 


这 里 : 

 S 是 一 个 如 下 形式 的 元 组 : { 5S# s#, SNAME sn, STATUS st, CITY sc } 

(其 中 s# 是 S# 的 一 个 值 ，sn 是 NAME 类 型 的 值 , st 是 整 型 信 ，sc 是 CITY 类 型 值 .) 

XPS 是 供应 商 的 一 个 外 部 谓词 。 

@ XPS(s) 是 用 S#=s#, SNAME = sn, STATUS = st 和 CITY = sc 初始 化 得 到 的 命题 。 

然而 ， 如 第 6 章 所 提 ， 我 们 将 进一步 研究 外 部 而 非 内 部 谓词 。 具 体 来 说 ， 我 们 采用 封闭 世界 
假设 ， 它 表明 如 果 一 个 有 效 元 组 在 某 个 给 定时 间 没 有 出 现在 关系 变量 中 ， 那么 对 应 的 命题 将 被 按 
习惯 理解 为 在 那个 时 间 是 错误 的 命题 。 例 如 ， 如 果 元 组 


{ S# S#('S6')，SNRNME NAME('Lopez'), STATUS 30, CITY 'Madrid' } 


在 某 个 给 定时 间 没 有 出 现在 关系 变量 S 中 ， 那么 我 们 将 理解 为 ， 在 那个 时 间 不 存在 与 供应 商号 
S6 、 名 字 叫 Lopez、 状 态 号 是 30 、 位 于 Madrid 的 供应 商 签 订 合同 的 事实 。 更 一 般 地 讲 : 


IF (ses) = FALSE THEN XPS ( s ) = FALSE 


或 更 简捷 : 


IF NOT (seS ) THEN NOT XPS (5 ) 


把 以 上 两 者 合 二 为 一 ， 我 们 有 : 


ses ¥ XPpS(s) 


换言之 ,一 个 给 定 的 元 组 在 给 定时 间 出 现在 给 定 关 系 变量 中 的 充 要 条 件 是 : 那个 元 组 使 得 那 时 的 
关系 变量 的 外 部 谓词 取 真 值 。 因 此 ， 一 个 给 定 的 关系 变量 包含 全 部 并 且 仅 包含 与 那个 关系 变量 的 
外 部 谓词 的 真 值 实例 对 应 的 元 组 。 


9.7 正确 性 与 一 致 性 


根据 定义 ， 系 统 无 法 〈 事 实 上 也 不 能 ) 理解 通过 实例 化 哪些 谓词 而 得 到 的 外 部 谓词 和 命题 。 
例如 ， 系 统 不 会 知道 一 个 供应 商 “位 于 ” 某 地 的 含义 ， 也 不 知道 一 个 “供应 商 ” 拥 有 “状态 
号 ”( 等 等 ) 。 所 有 类 似 这 样 的 问题 都 属于 解释 的 问题 一 一 它们 对 于 用 户 是 有 意义 的 ， 对 系统 而 
言 却 不 然 。 给 一 个 更 具体 的 例子 ， 如 果 供 应 商 的 状态 号 是 S1 并 且 与 城市 名 London 恰巧 一 起 出 现 
在 某 个 元 组 中 ， 那 么 用 户 可 以 理解 为 供应 商 S1 位 于 London,® 但 系统 是 无 法 作 类 似 的 理解 的 。 

更 重要 的 是 ， 即 使 系统 能 够 理解 一 个 供应 商 位 于 某 地 的 含义 ， 它 仍 无 法 理解 用 户 是 否 可 以 正 





仓 ”此 处 使 用 的 术语 参数 与 9. 3 节 和 9. 4 节 使 用 的 参数 在 意义 上 有 一 点 不 同 ， 后 者 表示 整个 关系 ， 而 现在 表示 单个 
属性 值 。 

昌 ”或 者 供应 商 S1 曾经 位 于 London， 或 者 供应 商 S1 在 London 有 一 间 办 公 室 ， 或 者 供应 商 S1 在 London 没有 办 公 
室 ， 或 者 其 他 任何 可 能 的 解释 之 一 〈 这 种 解释 是 无 穷 多 的 ， 且 解释 对 应 于 无 限 数量 的 可 能 的 外 部 谓词 ) 。 
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确 使 用 。 如 果 用 户 向 系统 声明 S1 位 于 London (通常 通过 执行 INSERT 语句 实现 ) ， 系 统 无 法 知 
道 那 个 声明 是 否 为 真 。 系 统 所 能 做 的 只 是 确保 它 不 会 导致 声明 违规 ( 即 它 不 会 导致 任何 内 部 谓 
词 取 值 FALSE)。 假 如 不 是 这 样 ， 那 么 系统 必须 接受 声明 ， 并 且 从 那 一 点 往 后 把 它 视 为 真 值 (至 
少 直 到 用 户 告知 系统 它 已 不 再 取 真 值 了 (通常 通过 执行 DELETE 语句 实现 ) ) 。 

顺便 提 及 ， 前 面 的 内 容 清 楚 地 解释 了 为 什么 封闭 世界 假设 不 适用 于 内 部 谓词 。 具 体 来 说 ， 对 
于 一 个 关系 变量 而 言 ， 一 个 元 组 可 能 满足 内 部 谓词 但 却 没有 出 现在 那个 关系 变量 中 ， 因 为 在 现实 
世界 中 没有 与 它 对 应 的 真 命题 。 

我 们 通过 不 太 正 式 的 说 法 来 总 结 一 下 以 上 的 讨论 : 一 个 给 定 关 系 变量 的 外 部 谓词 是 那个 关系 
变量 的 有 意 的 解释 (intended interpretation ) 。 因 此 ， 它 对 于 用 户 而 非 系统 而 言 是 重要 的 。 同 时 ， 
一 个 给 定 关系 变量 的 外 部 谓词 是 接受 更 新 的 标准 (criterion for acceptability of updates) ， 即 至 少 
从 原则 上 讲 ， 它 决定 INSERT、DELETE 或 UPDATE 是 否 能 成 功 。 因 此 ， 理 想 情 况 下 ， 系 统 知道 
每 个 关系 变量 的 外 部 谓词 ， 因 此 它 能 正确 处 理 所 有 可 能 的 更 新 该 关系 变量 的 企图 。 然 而 ， 正 如 我 
们 看 到 的 ， 这 个 目标 是 无 法 实现 的 ; 系统 无 法 知道 任何 给 定 关系 变量 的 外 部 谓词 。 但 它 知道 一 个 
较 好 的 近似 : 它 知道 对 应 的 内 部 谓词 。 于 是 ， 实 际 接受 更 新 标准 的 是 内 部 谓词 ， 而 不 是 外 部 谓 
词 。 换 一 种 说 法 是 : 

系统 无 法 保证 数据 的 真实 性 ， 只 能 保持 一 致 性 

也 就 是 说 ， 系 统 无 法 保证 数据 库 只 包含 真 命题 ， 它 所 能 做 的 仅 是 保证 数据 库 不 包含 任何 破坏 
完整 性 约束 的 命题 ， 即 保证 数据 库 的 一 致 性。 糟糕 的 是 真实 性 与 一 致 性 是 有 区 别 的 ， 事实 上 ， 我 
们 可 以 观察 到 : 

@ 如 果 数 据 库 仅 包含 真 命题 ， 那 么 它 一 致 的 ， 反 之 却 不 一 定 。 

sa 如 果 数 据 库 是 不 一 致 的 ， 那 么 它 至 少 包 含 一 个 假 命 题 ， 反 之 却 不 一 定 。 

简单 地 说 ， 正 确 意味 着 一 致 (而 不 是 相反 )， 不 一 致意 味 着 不 正确 (而 不 是 相反 )。 正 确 ， 
指 的 是 当 且 仅 当 数 据 能 够 完全 反应 现实 世界 事务 的 真实 状态 时 ， 它 是 正确 的 。 


9.8 完整 性 和 视图 


截至 目前 ， 本 章 的 所 有 讨论 适用 于 一 般 的 关系 变量 ， 而 不 只 是 基本 的 ; 特别 是 ， 它 们 适用 于 
视图 (虚拟 关系 变量 ) 。 于 是 ,视图 也 受 约束 限制 , 它们 有 关系 变量 谓词 ， 包 括 内 部 的 和 外 部 
的 。 例 如 ， 假 定 我 们 通过 在 供应 商 关 系 变量 的 S#、SNAME 和 STATUS 属性 上 投影 定义 了 一 个 视 
图 (因此 有 效 地 消除 了 属性 CITY) 。 于 是 那个 视图 的 外 部 谓词 看 起 来 像 这 样 ; 

在 在 一 个 名 叫 CITY 的 城市 ， 根 据 合同 有 S# 这 样 的 供应 商 ， 供 应 商 名 为 SNAME 它 位 于 城市 
CITY， 具 有 状态 STATUS。 

注意 到 ， 这 个 谓词 必须 有 3 个 参数 (而 不 是 4 个 ) 对 应 于 视图 的 3 个 属性 (CITY 目前 不 再 
是 一 个 参数 而 是 一 个 约束 变量 ， 由 于 它 被 词组 “存在 某 个 城市 ”量化 )。 另 一 种 更 为 清晰 的 解释 
方式 是 ， 如 上 所 述 的 谓词 逻辑 上 等 价 于 以 下 形式 : 

供应 商 S# 名 为 SNAME ， 具 有 状态 STATUS ， 位 于 某 城 市 。 

这 种 谓词 形式 很 清楚 地 拥有 恰好 3 个 参数 。 那 么 ， 关 于 内 部 谓词 又 如 何 呢 ? 这 里 再 次 列举 我 
们 给 出 的 常见 的 例子 : 

1) 每 个 供应 商 的 状态 值 都 在 1 到 100 的 范围 内 取 值 ( 含 1 和 100)。 

2) 每 个 伦敦 供应 商 的 状态 号 都 是 20。 

3) 如 果 有 一 些 零件 的 话 ， 它 们 中 至 少 有 一 个 是 蓝 色 的 。 

4) 不 允许 出 现 两 个 不 同 的 供应 商 拥 有 相同 的 供应 商号 。 

5) 每 次 供 货 都 要 有 一 个 存在 的 供应 商 。 

6) 不 允许 状态 号 小 于 20 的 供应 商 供应 任何 数量 多 于 500 的 零件 。 

假定 我 们 正在 讨论 的 视图 叫 SST。 那 么 就 视图 SST 而 言 ， 例 子 3 很 明显 是 无 关 的 ， 因 为 它 与 
零件 有 关 ， 而 与 供应 商 无 关 。 其 他 的 例子 均 适 用 于 视图 SST， 只 是 形式 上 稍 作 改动 。 比 如 ， 下 面 
是 例 5 改动 后 的 形式 : 
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FORALL s# < S#, p# e P#, g ee QTY 
{ IF { S# s#, P# p#, QTY 9 } ee SP 
THEN EXISTS sn € NAME, st € INTEGER 
( { S# s#, SNAME sn, STATUS st } ee SST ) ) 
改变 发 生 在 第 3 和 第 4 行 ， 所 有 指向 CITY 的 引用 均 已 取消 ， 并 且 指 向 S 的 引用 已 被 替换 为 
指向 SST 的 引用 。 注 意 ， 我 们 把 这 个 对 SST 的 约束 视 为 从 相应 的 对 $ 的 约束 中 得 到 ， 正 如 关系 
变量 SST 本 身 是 从 关系 变量 S 得 到 一 样 .? (又 如 SST 的 外 部 谓词 是 从 S 的 外 部 谓词 得 到 ， 也 是 
一 个 道理 。) 
类 似 的 评价 可 直接 应 用 到 例 1，2, 4 和 6 上 。 然 而 ， 例 2 稍 有 些 复杂 ， 因 为 它 包 括 一 个 EX- 
ISTS ， 对 应 于 已 通过 投影 去 掉 的 属性 : 


FORALL s# € S#, sn € NAME, st € INTEGER 
( IF 1{ S# s#, SNAME sn, STATUS st } € SST 
THEN EXISTS sc E CHRR 
{ { S# s#, SNAME sn, STATUS st, CITY sc } e 8 AND 
( IF sc = 'London' 
THEN st = 20 ) ) 


然而 ， 我们 可 以 再 次 把 这 个 约束 视 为 从 相应 的 对 5 的 约束 中 获得 。 
9.9 约束 分 类 模式 


在 本 节 中 ， 我 们 为 约束 简要 地 描述 一 个 分 类 模式 (本 质 上 是 文献 [3.3] 中 采用 的 模式 )。 
我 们 把 约束 简要 地 分 为 4 个 大 类 : 数据 库 、 关 系 变量 、 属 性 和 类 型 约束 。 概 要 如 下 

sa 数据 库 约 束 是 在 一 个 给 定数 据 库 允许 取 值 上 的 约束 。 

s 关系 变量 约束 是 在 一 个 给 定 关系 变量 允许 取 值 上 的 约束 。 

s 属性 约束 是 在 一 个 给 定 属性 允许 取 值 上 的 约束 。 

和 类 型 约束 是 组 成 一 个 给 定 类 型 的 值 集 的 一 个 定义 。 

然而 ， 以 相反 的 顺序 来 解释 它们 更 符合 我 们 的 目的 。 

1. 类 型 约束 

在 此 之 前 ， 本 章 中 从 未 提 及 类 型 约束 。 然 而 ， 它 们 在 第 $ 章 已 详细 讨论 ， 因 此 以 下 内 容 只 是 
用 来 提醒 你 我 们 已 介绍 过 的 内 容 。 首 先 ， 精 确 地 讲 ， 一 个 类 型 约束 是 组 成 当前 的 类 型 的 值 的 详细 
说 明 。 这 里 举 个 例子 (与 第 5 章 重复 ): 


TYPE WEIGHT POSSREP { D DECIMAI, (5,1) 
CONSTRAINT D > 0.0 AND D < 5000.0 } ; 

含义 : 类 型 WEIGHT 的 合法 值 严格 来 说 ， 就 是 那些 可 能 被 表示 为 5 位 十 进 制 数 字 和 小 数 点 
后 1 位 数字 的 值 ， 当 前 讨论 的 十 进 制 数 大 于 0 小 于 5000。 

目前 可 明显 地 看 出 ,最终 ,， 任何 表达 式 能 产生 类 型 WEIGHT 的 值 的 唯一 方式 是 调用 
WEIGHT 选择 子 。 因 此 ， 这 样 的 表达 式 违反 WEIGHT 类 型 约束 的 唯一 方式 ， 就 是 选择 子 调用 违 
反 WEIGHT 类 型 约束 。 接 下 来 ， 类 型 约束 总 能 被 认为 (至 少 是 概念 上 ) 在 某 个 选择 子 调用 执行 
期 间 被 检查 。 例 如 ， 考 虑 下 面 对 类 型 WEIGHT 的 选择 子 调用 : 


WEIGHT ( 7500.0 ) 


这 个 表达 式 将 引起 运行 时 异常 (违反 WEIGHT 类 型 约束 : 值 出 界 ) 。 

由 上 述 我 们 可 以 说 ， 类 型 约 东 总 被 立刻 检查 。 因 此 ， 特 别 地 ， 没 有 一 个 关系 变量 能 在 不 恰当 
的 类 型 ( 当然 是 一 个 支持 类 型 约束 的 系统 ) 的 任何 元 组 的 任何 属性 上 获得 一 个 值 。 

因为 类 型 约束 本 质 上 就 是 一 个 组 成 某 个 当前 类 型 的 值 的 规定 ， 在 Tutorial D 中 我 们 把 这 样 的 
约束 和 合适 的 类 型 绑 在 一 起 ， 并 且 通 过 适当 的 类 型 名 来 辨别 它们 ， 因 此 ， 一 个 类 型 约束 可 通过 删 
除 类 型 本 身 来 删除 。 





”注意 ,演绎 约束 是 从 一 个 基本 关系 变量 到 一 个 视图 的 有 效 的 外 码 约束 。 参 见 9. 10 节 。 
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2. 属性 约束 
属性 约束 基本 上 是 9. 2 节 中 说 的 在 前 约束 ; 换言之 ,一 个 属性 约束 基本 上 就 是 一 个 对 特定 关 
系 变量 的 某 个 属性 是 某 个 特定 类 型 的 声明 。 例 如 ， 再 次 考虑 供应 商 关 系 变量 定义 


VAR S BASE RELATION 
{ S# 7 


SNAME NAME, 
STATUS INTEGER, 
CITY CHAR } .. 


在 这 个 关系 变量 中 ， 属 性 S#、SNAME、STATUS 和 CITY 分 别 被 约束 为 类 型 8#、NAME 、 
INTEGER 和 CHAR。 换 言 之 ， 属 性 约束 是 当前 的 属性 定义 的 一 部 分 ， 并 且 它 们 可 以 通过 对 应 的 
属性 名 标识 。 因 此 ， 一 个 属性 约束 可 以 通过 删除 属性 本 身 〈 实 际 上 通常 指 删除 包 含 的 关系 变量 ) 
加 以 删除 。 注 意 ; 原则 上 ， 任 何 引 入 一 个 属性 值 到 数据 库 (通过 INSERT 或 UPDATE 操作 ) 的 
尝试 都 将 被 拒绝 。 然 而 ， 实 际 上 ， 这 样 的 情况 永远 不 会 发 生 ， 只 要 系统 强制 执行 前 面 小 节 描述 的 
类 型 约束 。 

3. 关系 变量 和 数据 库 约束 

关系 变量 和 数据 库 约束 是 到 目前 为 止 我 们 自始至终 关注 的 ， 它 们 之 间 的 不 同 之 处 是 关系 变量 
约束 仅仅 包括 一 个 关系 变量 ， 而 数据 库 约 束 包 插 两 个 或 多 个 关系 变量 。 然 而 ， 在 9.2 节 已 所 到 ， 
从 理论 角度 看 这 个 差别 不 那么 重要 (尽管 从 实际 出 发 可 能 有 用 ) 。 

然而 ， 一 个 至 今 我 们 仍 未 谈 及 的 要 点 是 ， 某 个 关系 变量 或 数据 库 约 束 可 以 是 转变 约束 (tran- 
sition constraint) 。 一 个 转变 约束 是 在 一 个 给 定 变量 (特别 地 ， 一 个 给 定 关系 变量 或 一 个 给 定数 据 
库 ) 从 一 个 值 变 到 另 一 个 值 的 合法 转变 上 的 约束 ;2 例如 ， 一 个 人 的 婚姻 状况 可 以 从 “未 婚 ” 变 
到 “已 婚 ”， 但 不 能 反 过 来 。 假 定 我 们 在 一 个 表达 式 中 有 方式 指出 : 

a) 在 一 个 任意 的 更 新 前 当前 变量 的 值 。 

b) 同一 个 变量 在 更 新 后 的 值 ， 那 么 我 们 有 办 法 形式 化 任何 期 望 的 转变 约束 。 例 如 (供应 商 
的 状态 不 应 该 下 降 ) : 

CONSTRAINT TRC1 


FORALL SX’' FORALL SX ( SX'.S# = SX.S# OR 
SX' .STATUS < SX.STATUS ) ; 


解释 : 我 们 引入 如 下 约定 ， 一 个 主要 的 范围 变量 名 (如 例子 中 的 SX') 被 理解 为 指 相应 的 关 
系 变量 ， 因 为 它 优先 于 当前 的 更 新 。 于 是 ， 本 例 中 的 约束 可 视 为 :如果 SX 是 一 个 更 新 前 的 供应 商 
元 组 ， 那 么 更 新 后 不 存在 一 个 供应 商 元 组 SX， 其 供应 商号 与 SX 相同 且 状 态 值 比 在 SX 中 的 小 。 
注意 ,约束 TRC1 是 一 个 关系 变量 转变 约束 ( 它 适 用 于 单一 关系 变量 ， 关 系 变量 S) 。 这 里 形 
成 对 比 的 是 一 个 数据 库 转 变 约束 (“来 自 所 有 供应 商 的 任何 给 定 零件 的 总 量 应 该 永远 不 减少 ” ) : 
CONSTRAINT TRC2 
FORALL PX 


SUM ( SPX' WHERE SPX'.P# = PX.P#, QTY } & 
SUM ( SPX WHERE SPX .P# = PX.P#, QTY ) ; 


9.10 码 


正如 在 9. 1 节 中 提 到 的 ， 关系 模型 总 是 强调 码 的 概念 ， 尽 管 它们 只 是 一 个 普遍 现象 的 特例 
(虽然 实际 上 是 重要 的 ) 。 在 本 节 中 ， 我 们 特别 考虑 码 。 

1. 候选 码 

设 R 为 一 个 关系 变量 ， 由 定义 ，R 的 属性 集 具 有 唯一 性 〈uniqueness) ， 也 就 是 说 ， 在 任 一 时 
刻 ， 没 有 两 个 元 组 是 重复 的 。 实 际 上 ，R 的 属性 集合 的 某 个 真子 集 也 具有 唯一 性 ; 比如 在 供应 商 
关系 变量 S 中 ，S# 就 具有 此 特性 。 这 样 的 考虑 提供 了 如 下 的 定义 :2 





外 ”不 是 转变 约束 的 约束 有 时 称 为 状态 ( state) 约束 。 
外 ”注意 这 个 定义 只 适用 于 关系 变量 ; 也 可 为 关系 值 定 义 -个 类 似 的 概念 【3.3] ， 但 关系 变量 是 重要 的 情况 。 也 要 
注意 ， 我 们 再 次 依赖 元 组 相等 的 概念 〈 特 指 在 上 唯 一 属性 的 定义 中 ) 。 
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” 颁 定 上 是 关 系 变 量 的 属性 集合 那么 可 以 称 之 为 的 候选 码 ， 当 上 且 仅 当 具 有 如 下 
两 个 特点 : 
a) 唯一 性 : R 上 没有 两 个 不 同 的 元 组 ,在 上 有 相同 的 值 。 
b) 不 可 约 性 : 天 没有 一 个 真子 集 也 具有 唯一 性 。 
注意 ， 每 一 个 关系 变量 至 少 有 一 个 候选 码 。 唯 一 性 是 无 需 解释 的 ; 关于 不 可 约 性 ， 如 果 指 定 
了 不 具有 不 可 约 性 的 候选 码 ， 系 统 将 无 法 得 知事 件 的 真实 状态 ， 于 是 不 能 正确 实施 相应 的 完整 性 
约束 。 比 如 ， 假 设 定义 {|S#，CITY| 而 不 是 1S#} 为 候选 码 ， 系 统 将 无 法 实施 供应 商 编 号 在 全 
数据 库 内 是 唯一 的 这 一 “全 局 ”约束 ， 它 只 能 实施 较 弱 的 “在 城市 内 唯一 ”的 “局 部 ”约束 。 
因此 ， 候 选 码 不 应 包括 任何 与 唯一 识别 的 目的 无 关 的 其 他 属性 。° 
顺便 提 一 下 ， 前 面 讲 的 不 可 约 性 在 字面 上 的 意思 是 最 小 性 (minimality) (包括 本 书 的 前 几 
版 也 是 如 此 ) 。 但 最 小 性 也 不 是 一 个 准确 的 词语 ， 因 为 如 果 说 候选 码 Kl 是 最 小 化 的 ， 并 不 意味 
着 无 法 找到 另 一 个 候选 码 有 2， 而 友 包含 更 少 的 元 素 ; 有 可 能 Kl 包含 四 个 元 素 而 K2 仅 有 两 个 。 
所 以 还 用 “不 可 约 性 ”这 个 词 。 
在 Tutorial D 中 ， 在 关系 变量 定义 中 用 如 下 语法 : 


KEY { <attribute name commalist> } 


指定 这 个 关系 变量 的 候选 码 。 下 面 有 一 些 例子 : 


VAR 5S BASE RELATION 
{ S# S#, 
SNAME NAME, 
STATUS INTEGER, 
CITY CHAR } 


注意 ; 在 前 几 章 中 ， 在 定义 中 带 有 “PRIMARY KEY” 子 句 ， 而 不 是 用 未 限定 的 “KEY"” 
子 句 。 请 参考 随后 的 “ 主 码 和 替换 码 ” 一 -小 节 ， 有 更 多 的 讨论 。 


VAR SP BASE RELATION 


{ S# S#, 
P# P#, 
QTY QTY } 


KEY { S#, P# } ... 3; 


这 个 例子 显示 了 一 个 带 有 复合 候选 码 的 关系 变量 (也 就 是 候选 码 涉及 一 个 以 上 的 属性 ) 。 与 
此 相对 的 是 简单 候选 码 。 


VAR ELEMENT BASE RELATION { NANME NRAME ， 
SYMBOL CHAR, 
ATOMIC# INTEGER } 
KEY { NAME } 
KEY { SYMBOL } 
KEY { ATOMIC# } ; 


这 个 例子 显示 了 一 个 同时 有 几 个 不 同 的 〈 简 单 ) 候选 码 的 情况 。 
VAR NARRIAGE BASE RELATION { HUSBAND mE, 
E 


DATE /* of marriage */ DATE } 
/* assume no polyandry, no polygyny, and no husband and 2/ 
/* wife marry each other more than once ... 
KEY { HUSBAND, DATE } 
KEY { DATE, WIFE } 
KEY { WIFE, HUSBAND } ; 


这 个 例子 显示 了 有 多 个 复合 (交错 的 ) 候选 码 的 情况 。 
当然 ， 如 在 9. 2 节 中 指出 的 ， 候 选 码 定义 只 是 关系 变量 约束 的 缩写 形式 ， 因 为 从 视图 的 





日 ”候选 码 不 可 约 的 另外 一 个 原因 是 : 任何 一 个 依赖 于 可 约 候选 码 的 外 码 〈 如 果 存 在 这 种 情况 的 话 ) ， 它 也 是 “可 
约 ” 的 ， 因 此 包含 它 的 关系 变量 将 违背 第 12 章 中 进一步 规范 化 的 原则 。 
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语法 角度 来 看 ， 候 选 码 的 概念 是 重要 的 ， 所 以 这 种 缩写 很 有 用 。 尤 其 是 候选 码 提 供 了 一 种 在 
关系 模型 中 的 元 组 级 的 寻 址 方式 一 一 系统 中 唯一 精确 指示 某 些 指 定 元 组 的 方法 就 是 通过 候选 
人 码 。 比如 : 


S WHERE S# = S# ('S3') 


可 以 保证 至 多 产生 一 个 元 组 (更 准确 地 说 ， 它 产生 了 至 多 包含 一 个 元 组 的 一 个 关系 )。 相 反 ， 表 
达 式 : 
S WHERE CITY = 'Parigs， 


产生 数目 不 可 预测 的 多 个 元 组 。 可 以 说 ， 候 选 码 对 于 关系 系统 的 正确 操作 的 重要 性 ， 可 以 和 内 存 
地 址 对 于 计算 机 正确 操作 的 重要 性 相提并论 。 结 论 是 : 

1) 没有 候选 码 的 关系 变量 一 一 也 就 是 允许 重复 元 组 的 关系 变量 一 一 在 某 些 环境 中 会 出 现 蜡 
常 现象 。 

2) 不 支持 候选 码 概念 的 系统 有 时 会 表现 得 像 一 个 非 关 系 系统 ， 即 使 它 所 处 理 的 关系 变量 是 

真正 的 关系 变量 ， 而 且 不 允许 重复 元 组 。 

上 面 所 说 的 “异常 ”和 “ 像 非 关 系 系统 ”的 现象 与 视图 的 更 新 和 优化 有 关 (分 别 参见 第 10 

章 和 第 18 章 ) 。 
再 指出 几 点 ， 然 后 结束 这 一 小 节 的 讨论 : 
a 不 只 是 基本 关系 变量 拥有 候选 码 ! 一 一 所 有 的 关系 变量 都 有 ， 包 括 视图 。 然 而 在 视图 情况 
下 ， 这 样 的 码 是 否 被 声明 将 部 分 依赖 于 系统 是 否 知道 如 何 执行 候选 码 推断 [3.3]。 
se 候选 码 的 超 集 是 超 码 〈superkey) 。 属 性 集 | S#，CITY} 是 关系 变量 S 的 超 码 。 超 码 具有 
唯一 性 ,但 不 具有 不 可 约 性 。 当 然 ， 候 选 码 可 以 看 作 是 超 码 的 一 个 特例 。 
e 如果 SK 是 关系 变量 R 的 超 码 ，A 是 员 的 一 个 属性 ， 那 么 函数 依赖 SK 一 A 在 R 中 为 真 。 实 
际 上 ， 可 以 定义 SK 上 的 一 个 子 集 为 超 码 ， 而 使 函数 依赖 SK 一 A 对 R 上 的 任意 属性 4 为 
真 。 注 意 ， 函 数 依赖 这 一 重要 概念 在 第 11 章 再 深入 讨论 。 
m 最 后 ， 请 注意 不 要 把 逻辑 上 的 概念 “候选 码 ” 和 物理 中 的 概念 “唯一 索引 ” 相 混 消 〈 虽 
然后 者 常 被 用 来 实施 前 者 ) 。 换 言 之 ， 候 选 码 上 不 一 定 要 有 索引 (或 任何 其 他 的 物理 存 取 
路 径 ) 。 实 际 上 可 能 会 有 这 样 的 存 取 路 径 ， 但 有 还 是 没有 并 不 在 关系 模型 的 讨论 范围 
之 内 。 
2. 主 码 和 替换 码 
很 明显 ， 一 个 关系 变量 可 以 有 两 个 或 多 个 候选 码 。 这 种 情况 下 ， 此 关系 模型 就 要 求 一 一 至 少 
是 对 于 基本 关系 变量 一 一 它们 中 的 一 个 被 选 为 主 码 ， 其 他 的 就 被 称 为 替换 码 (altemate key) 。 如 
在 “元 素 ” 例 子 中 ， 我 们 选取 | SYMBOL 上 | 作为 主 码 ; {NAME| 和 {ATOMIC#| 就 是 替换 码 。 
在 只 有 一 个 候选 码 的 情况 下 ， 对 于 基本 关系 变量 关系 模型 ， 要 求 这 个 候选 码 被 指定 为 主 码 ， 因 
此 ， 基 本 关系 变量 总 是 有 一 个 主 码 。 
选取 一 个 候选 码 作为 主 码 〈 当 存在 选择 时 ) ， 在 多 数 情 况 下 是 一 个 好 主意 ， 但 并 不 完全 。 在 
参考 文献 [9. 14] 中 有 这 方面 的 详细 讨论 ; 这 里 ， 我 们 只 说 明 一 种 情况 ， 在 这 种 情况 中 哪 一 个 
候选 码 被 选 为 主 码 是 任意 的 〈 引 用 Codd 的 [9.9] 中 的 话 “ 以 简便 性 为 选取 原则 ， 但 这 是 在 关 
系 模型 研究 之 外 的 。”〉 在 本 书 中 ， 有 时 会 定义 主 码 ， 有 时 不 会 〈 当然 我们 总 是 会 定义 一 个 候 
选 码 ) 。 

3. 外 码 

简单 地 说 ， 外 码 就 是 定义 在 关系 变量 RR 上 的 一 组 属性 集 ， 它 们 的 值 要 求 与 关系 变量 RI 的 
候选 码 的 值 相 匹 配 。 比 如 ， 考 虑 在 关系 变量 SP 中 的 属性 集 |S#} 〔( 仅 包含 一 个 属性 ) 。 显 然 ， 如 
果 一 个 {S#| 的 值 要 在 关系 变量 SP 中 出 现 ， 仅 当 同 样 的 值 出 现在 关系 变量 S 的 唯一 候选 码 
1S#} 上 中 〈 不 能 让 不 存在 的 供应 商 有 一 个 供 货 量 ) 。 相 应 地 ， 一 个 对 {P#| 的 给 定 的 值 要 能 在 关 
系 变量 SP 中 出 现 ， 仅 当 同 样 的 值 出 现在 关系 变量 P 的 唯一 候选 码 |P#} 中 (不 能 让 不 存在 的 零 
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件 有 一 个 供 货 量 ) 。 这 些 例子 可 用 于 引出 如 下 定义 :” 
sn 设 R2 是 关系 变量 。 那 么 R2 的 外 码 是 它 的 一 个 属性 集 ， 比 如 说 FK， 则 : 
a) 存在 带 有 候选 码 CK 的 关系 变量 RI (RIL，R2 可 能 相同 ) 。 
b) 有 可 能 重 命名 某 个 FK 的 属性 的 子 集 ， 以 便 使 FK 成 为 FE (比如 说 ) 且 FK "和 CK 是 
相同 的 《元 组 ) 类 型 。 
c) 无 论 何 时 ，R2 中 的 任 一 个 FK 值 都 在 R1 的 CK 中 有 一 个 相同 的 值 。 

这 里 有 如 下 要 点 : 

1) 实际 中 ,很 少 有 必要 执行 任何 实际 的 重 命名 ; 即 需要 重 命名 的 FK 的 属性 的 子 集 通常 是 
空 集 (不 是 空 集 的 例子 在 第 7 点 中 讨论 )。 因 此 ， 为 简单 起 见 ， 从 这 点 往 后 我 们 假定 FK 和 FK" 
是 相似 的 ， 除 非 有 明显 相反 的 声明 。 

2) 注意 到 ， 虽 然 FK 的 每 个 值 必须 作为 CK 的 一 个 值 出 现 ， 但 反 过 来 却 不 是 必须 的 ; 即 R1 
可 能 包含 一 个 CK 值 ， 该 值 当前 不 作为 FK 值 在 R2 中 出 现 。 例 如 在 供应 商 和 零件 例子 中 ( 样 内 
值 如 内 封底 所 示 ) 供应 商号 码 $5 出 现在 关系 变量 S 中 但 没有 出 现在 关系 变量 SP 中 ， 因 为 供应 
商 S5 当前 没有 任何 零件 。 

3) 外 码 是 简单 的 还 是 复合 的 取决 于 对 应 的 候选 码 是 简单 的 还 是 复合 的 。 

4) 外 码 表示 一 个 对 包含 相应 候选 码 的 某 个 元 组 的 参照 (被 参照 元 组 ) 。 确 保 数据 库 中 不 含 
有 无效 外 码 的 问题 被 称 为 参照 完整 性 问题 。( 见 第 12 条 。) 外 码 值 必须 与 相对 应 的 候选 码 的 值 相 
匹配 的 约束 被 称 为 参照 约束 。 含 有 外 码 的 关系 变量 被 称 为 参照 关系 变量 ， 含 有 相应 候选 码 的 关系 
变量 称 为 被 参照 关系 变量 。 

5) 参照 图 : 考虑 “供应 商 ~ 零件 ”例子 。 可 以 把 其 中 的 参照 约束 用 下 面 的 参照 图 表示 
出 来 : | 


Sm SP 一 了 


每 一 个 箭头 表示 一 个 外 码 ， 这 个 外 码 从 此 关系 变量 出 发 ， 参照 箭头 指向 的 关系 变量 中 的 某 个 候选 
码 。 注 意 : 为 清晰 起 见 ， 用 构成 候选 码 的 属性 名 来 标识 参照 表 是 可 行 的 。 比如 : 
S# Pp# 
Se— SB 一 一 了 
在 本 书 中 ， 只 有 当 省 略 标识 会 引起 混淆 的 情况 下 才 进行 标识 。 
6) 某 个 关系 变量 可 以 是 参照 关系 变量 ， 也 可 以 是 被 参照 关系 变量 。 如 在 R2 的 例子 中 : 


R3 -一 》”R2 一 一 R1 


为 此 ， 引 入 参照 路 径 (referential path) 这 一 术语 。 设 有 关系 Rn, R (n -1)，…，R2, R1, 存在 
从 Rn 到 R (nz-1) 的 参照 约束 ,从 R (n-1) 到 R (n-2) 的 参照 约束 ，…… ， 从 R2 到 RI 的 
参照 约束 : 


Rn 一 全 RUIn-1) 一 一 R(n-2) 一 一 .HR2 -一 ”BR1 


那么 ， 从 Rn 到 R1 的 箭头 链表 示 从 Rn 到 RI 的 参照 路 径 。 
7) 注意 : 外 码 定义 中 的 R2 与 Ri 不 必 是 不 同 的 。 也 就 是 说 ， 外 码 可 以 参照 关系 变量 自身 的 
候选 码 。 考 虑 下 面 的 外 码 定义 〈 一 会 儿 我 们 再 解释 语法 ， 不 过 这 应 该 是 显而易见 的 ) : 


VAR EMP BASE RELATION 
{ EMP# EMP#, ..., MGR_ EMP# EMP#, ... } 


KEY { EMP# } 
FOREIGN KEY { RENAME MGR EMP# AS EMP# } REFERENCES EMP ; 


这 里 ，MGR_EMP# 代 表 此 雇员 (用 EMP# 标 识 ) 的 经 理 的 雇员 号 ; 比如 ， 雇 员 F4 这 个 元 





@ 注意 : 定义 再 次 依赖 于 元 组 等 价 的 概念 。 
后 也 可 以 给 外 码 起 名 ， 然 后 用 这 些 名 字 来 标识 箭头 。 
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组 ， 它 的 MGR_EMP# 值 为 E3 ， 它 表示 指向 雇员 号 为 E3 的 元 组 的 参照 。(1 中 已 经 提 到 ， 这 里 要 
给 外 码 中 的 某 个 属性 重 命名 。) 像 EMP 这 样 的 关系 变量 可 以 称 为 自 参 照 (self-referencing) 的 。 
习题 : 给 这 个 例子 增加 一 些 数据 。 

8) 像 EMP 这 样 的 自 参照 的 关系 变量 只 是 一 种 更 一 般 的 情形 的 特例 一 一 也 就 是 ， 这 里 可 以 
有 一 个 参照 的 环 。 在 关系 变量 Ra，R (n -1)，…, R2，RI 中 ， 当 存在 从 Rn 到 R (n-1), 从 R 
(n-1) 到 R (n -2), ， 从 R2 到 Rl1， 从 Rl 回 到 Rn 的 参照 时 ， 就 形成 了 一 个 参照 的 环 。 
简单 地 说 ， 如 果 存 在 一 个 从 关系 变量 Rn 回 到 它 自 身 的 参照 路 径 ， 这 里 就 有 一 个 参照 的 环 。 


Rn — R(n-1) 一 ，R(n-2) 一 一 .OR2— 3 RI— Rn 


9)“ 外 码 -候选 码 ”的 匹配 可 以 比 作 是 使 数据 库 结合 在 一 起 的 粘 合剂 。 它 的 另 一 个 说 法 是 : 
它们 的 匹配 表示 了 元 组 之 间 的 某 种 关系 。 仔 细 观 察 ， 并 不 是 所 有 的 关系 都 通过 码 表现 出 来 。 比 如 ， 
在 供应 商 和 零件 之 间 有 “地 点 相同 ”的 关系 ， 由 S 和 了 的 城市 属性 表现 出 来 ; 当 某 个 供应 商 和 某 种 
零件 放 在 同一 城市 中 时 ， 就 说 它们 有 地 点 相同 的 关系 ， 但 这 并 不 通过 码 之 间 的 关系 表现 出 来 。 

10) 由 于 历史 原因 ， 外 码 只 定义 给 基本 关系 变量 ， 这 一 情况 引起 了 一 些 问题 。 (参见 第 10 
章 10. 2 节 关于 互 换 性 准则 的 讨论 。) 这 里 不 实施 这 样 的 限制 ; 但 是 为 简单 起 见 ， 我 们 只 把 讨论 限 
于 基本 关系 变量 (这 里 有 些 区 别 )。 

11) 关系 模型 起 初 是 要 求 外 码 参 照 的 ， 参 照 码 不 仅 是 候选 码 ， 还 要 主 码 (参见 [9.9])。 由 
于 这 是 不 必要 的 ， 后 来 放弃 了 这 些 限制 ， 虽然 实践 中 它 是 一 种 好 习惯 [9. 14] 。 

12) 除了 外 码 的 概念 ， 关 系 模 型 还 包括 下 列 规则 ( 参 腿 完整 性 规则 ) : 

= 参照 完整 性 : 数据 库 不 能 含有 无 匹配 的 外 码 。 

术语 “未 匹配 外 码 ” 表 示 在 被 参照 表 中 不 含有 相应 的 外 码 ; 换 句 话说， 约束 只 是 简单 地 要 
求 : 如 果 巨 参照 4， 则 4 必须 存在 。 

下 面 是 定义 外 码 的 语法 : 


FOREIGN KEY { <item commalist> } REFERENCES <relvar name> 


这 一 句 出 现在 参照 关系 变量 定义 中 。 
注意 ，< 关 系 变量 名 > 确定 了 一 个 引用 的 关系 变量 ,每 个 < 项 目 > 要么 是 一 个 引用 的 关系 变 
量 的 < 属性 名 >， 要么 是 如 下 形式 的 一 个 表达 式 : 


RENAME <attribute name> AS <attribute name> 


在 前 面 已 经 给 出 了 很 多 例子 (如 第 3 章 中 的 图 3-9 所 示 ) 。 注 意 : 正如 9.2 节 中 指出 的 ， 外 码 定 
义 只 是 一 些 数据 库 约 束 (在 自 参照 的 关系 变量 中 ， 是 关系 变量 约束 ) 的 缩写 一 一 除非 外 码 定 义 
被 扩展 到 包括 了 某 些 “ 参 照 行为 ” ( referential action) ， 那 时 它 就 不 只 是 完整 性 约束 了 。 参 见 下 
面 的 “参照 行为 ”部 分 。 

4. 参照 行为 

考虑 下 面 的 语句 : 


DELETE S WHERE S# = S# ('S1') ; 


假设 DELETE 能 像 所 描述 的 那样 做 ， 也 就 是 它 删除 供应 商 元 组 S1。 假 设 S1 对 应 一 些 发 货 元 组 ， 
并 且 程序 没有 删除 这 些 元 组 ， 当 系统 检查 从 发 货 到 供应 商 的 参照 完整 性 时 ， 就 会 发 生 错 误 。 

然而 ， 蔡 代 的 方法 是 存在 的 ， 在 某 些 情况 下 它 可 能 更 合适 。 那 就 是 让 系统 进行 一 次 适当 的 补 
偿 性 操作 ， 以 保证 全 部 结果 满足 约束 。 在 此 例 中 ， 显然 补偿 的 操作 是 同时 自动 删除 供应 商 S1 的 
“发 货 ” 元 组 。 为 达到 这 一 目的 ， 将 外 码 定义 扩展 如 下 : 


@ ”参照 完整 性 可 以 被 看 做 是 一 个 元 约束 ; 意思 是 给 定数 据 库 必然 服从 一 定 的 完整 性 约 东 ， 特 别 对 现在 讨论 的 数据 
库 ， 在 数据 库 中 不 可 以 违反 这 些 准 则 。 顺 便 提 一 下 ， 数 据 库 也 经 常 含有 另外 一 个 元 约束 : 实体 完整 性 ， 它 与 空 
值 有 关 。 在 第 19 章 讨 论 这 个 问题 。 
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VAR SP BASE RELATION { .. 
FOREIGN KEY { S# } REFERENCES 8 
ON DELETE CASCADE ; 


ON DELETE CASCADE 定义 了 指定 外 码 的 删除 规则 ，CASCADE 是 此 规则 的 参照 行为 。 这 些 
说 明 的 意思 是 : 在 供应 商 关 系 变量 上 的 删除 操作 应 “级 联 ”(cascade) 删除 相 匹 配 的 发 货 元 组 。 

一 个 常见 的 参照 行为 是 RESTRICT (与 关系 代数 中 的 restrict 操作 符 没 有 关系 ) 。 这 个 例子 
中 ，RESTRICT 表示 : 只 当 不 存在 相应 的 元 组 时 才 进 行 删除 (否则 被 拒绝 ) 。 在 外 码 定 义 中 忽略 
参照 行为 相当 于 指定 行为 是 “没有 动作 ” (NO ACTION) ， 意 思 是 DELETE 只 按 所 描述 的 去 做 ， 
不 多 做 也 不 少 做 。( 当 指 定 为 NO ACTION 时 ， 删 除了 一 个 有 匹配 的 发 货 元 组 的 供应 商 元 组 ， 就 
会 引起 违反 参照 完整 性 。) 几 个 要 点 : 

1) 删除 不 是 唯一 需要 参照 行为 的 操作 。 比 如 ， 当 存在 相 匹 配 的 发 货 元 组 时 对 供应 商 编 号 更 
新 。 显 然 ， 和 删除 规则 一 样 ， 需 要 一 个 更 新 规则 。 通 常 ，DELETE 和 UPDATE 是 相同 的 : 

nm CASCADE: 在 对 应 的 发 货 元 组 上 级 联 和 更 新 。 

m RESTRICT: 被 限制 为 只 当 没 有 相 匹 配 的 发 货 元 组 时 才 可 更 新 〈 和 否则 被 拒绝 ) 。 

m NO ACTION: 更 新 只 按 所 描述 的 那样 操作 〈 但 是 随后 可 能 出 现 违反 参照 完整 性 的 情况 ) 。 

2) 当然 ， 并 不 是 只 有 CASCADE 、RESTRICT 和 NO ACTION 三 种 参照 行为 ， 它 们 只 是 常用 
的 三 种 。 原 则 上 ， 可 以 有 多 种 不 同 的 响应 ， 比 如 对 某 个 供应 商 元 组 的 删除 ， 有 : 

sa 由 于 某 些 原因 ， 该 操作 被 拒绝 。 

m 信息 被 写 到 文档 数据 库 。 

e 与 被 删除 元 组 相对 应 的 发 货 元 组 被 转移 到 其 他 的 供应 商 元 组 中 。 

为 所 有 可 得 到 的 响应 提供 声明 语法 是 不 可 行 的 。 一 般 来 说 ， 特 定 一 个 由 任意 用 户 定义 过 程 组 
成 的 参照 动作 是 可 能 的 〈 见 下 一 节 ) 。 进 一 步 地 : (a) 过 程 的 执行 必须 被 看 做 是 声明 执行 的 一 部 
分 ， 而 这 个 声明 会 引发 完整 性 检查 ; (b) 当 过 程 已 经 执行 后 ， 必 须 再 次 执行 完整 性 检查 。 (过程 
显然 不 该 让 数据 库 违 反 约束 ) 。 

3) 设 R2 、RI 分 别 为 参照 关系 变量 和 被 参照 关系 变量 ， 


R2 一 一 Rl 


设 使 用 的 删除 规则 为 CASCADE。 通 常情 况 下 ， 在 Ri1 上 删除 某 个 元 组 也 对 应 着 在 R2 上 删除 
某 些 相应 的 元 组 。 假 设 R2 相应 地 被 另 一 个 关系 变量 R3 所 参照 : 


R3— R2 一 全 R1 


那么 蕴含 的 对 R2 的 删除 就 好 像 在 R2 上 直接 删除 一 样 ; 也 就 是 说 它 也 遵守 定义 在 其 参照 约束 上 
的 删除 规则 。 如 果 蕴 含 删除 失败 (由 于 R3 到 R2 的 删除 规则 或 其 他 原因 ) ， 那 么 整个 操作 失败 ， 
数据 库 恢 复原 状 ……， 如 此 递归 地 进行 ， 可 到 达 任 意 层次 。 

如 果 R2 的 外 码 中 有 被 R3 的 候选 码 所 参照 的 属性 ， 则 相似 的 方法 也 适用 于 级 联 更 新 (CAS- 
CADE UPDATE ) 。 





么 全 做 要 么 全 部 不 做 。 即 使 是 在 多 个 关系 变量 上 的 多 个 更 新 操作 ， 也 会 因 CASCADE 的 参照 行为 
而 实现 原子 性 。 


9. 11 触发 器 


从 我 们 本 章 所 述 的 所 有 内 容 中 可 以 很 清楚 地 看 到 我 们 特别 关注 声明 完整 性 支持 。 尽 管 在 近 些 
年 来 情况 已 经 被 改进 。 但 事实 上 即使 有 也 是 很 少 的 产品 ， 当 它们 第 一 次 出 现时 提供 很 多 这 种 支 
持 。 因 此 ， 完 整 性 约束 经 常用 触发 过 程 程序 地 执行 。 触 发 过 程 也 是 预 编译 过 程 ， 它 被 存储 在 数据 
库 里 ， 一 旦 情况 发 生 就 被 自动 调用 。 例 如 ， 我 们 通过 触发 过 程 执行 例 1 (status 值 在 1 ~ 100 之 
内 ) : (a) 一 旦 有 元 组 插入 关系 变量 s 时 ， 触 发 过 程 被 调用 ; (b) 检查 新 插入 元 组 ;(c) 如 果 状 
态 值 超出 了 范围 ， 把 它 删除 。 基 于 它们 在 实际 中 的 重要 性 ， 这 部 分 我 们 简单 地 了 解 了 触发 过 程 。 
注意 : 
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1) 因为 它们 是 过 程 ， 为 了 履行 完整 性 约束 而 触发 过 程 不 是 一 个 推荐 的 方法 。 过 程 对 人 们 来 
讲 很 难 理解 ， 对 系统 来 讲 又 很 难 优 化 ， 并 且 注 意 ， 声 明 约 束 在 所 有 关系 修改 中 被 检查 ， 而 触发 过 
程 仅 当 特 殊 事件 (如 插入 元 组 到 关系 变量 s) 发 生 时 执行 .? 

2) 触发 程序 的 应 用 不 只 局 限于 本 章 所 讲 的 完整 性 问题 。 事 实 上 ， 如 第 1 点 所 述 ， 它 们 能 服 
务 于 其 他 有 用 的 目的 ， 这 是 它们 真正 的 目的 所 在 ， 其 他 有 用 目的 的 例子 包括 : 

a_ 如 果 发 生 故 障 就 提醒 用 户 〈 例 如 ， 如 果 其 他 部 分 的 现 有 数量 低 于 危险 水 平 就 发 出 警告 ) 。 

b， 排除 故障 〈 例 如 管理 对 指定 变量 的 参照 ， 说 明 指定 变量 的 变化 ) 。 

c. 第 计 (例如 追踪 执行 者 、 修 改 了 什么 、 对 哪个 表 、 什 么 时 间 )。 

d. 执行 测量 (例如 计时 或 追踪 特定 数据 库 事件 ) 。 

e. 开展 补充 操作 (例如 因 supplier 元 组 的 级 联 删 除 ， 而 删除 相应 的 shipment 元 组 ) .” 
考虑 下 面 的 例子 (这 个 例子 基于 SQL， 而 不 是 Tutorial D， 因 为 参考 文献 [3.3] 没有 规定 
也 没有 禁止 任何 触发 过 程 支持 。 事 实 上 ， 它 基于 商品 产品 ， 而 不 是 SQL 标准 ， 因 为 SQL 不 支持 
所 说 的 特定 特征 。〉 假设 我 们 有 一 个 叫做 LONDON_SUPPLIER 的 视图 ， 如 下 定义 : 


CREATE VIEW LONDON SUPPLIER 
AS SELECT S#, SNAME, STATUS 
FROM Ss 
WHERE CITY = 'London’' ;} 


正常 地 ， 如 果 用 户 想 要 往 视 图 中 插入 一 行 ，SQL 将 在 下 面 的 拥有 属性 CITY 的 表 S 中 插入 一 
行 ， 无 论 默认 值 是 不 是 CITY 列 。( 参 见 第 10 章 ) 假设 默认 值 不 是 London， 结 果 就 是 新 行将 不 
会 出 现在 这 个 视图 中 。 创 建 一 个 如 下 的 触发 过 程 : 


CREATE TRIGGER LONDON SUPPLIER INSERT 
INSTEAD OF INSERT ON LONDON SUPPLIER 
REFERENCING NEW ROW RS R ~ 
FOR EACH ROW 
INSERT INTO S ( S#, SNAME, STATUS, CITY ) 
VALUES ( R.S#, R.SNAME, R.STATUS, ‘London' ) ; 


插 和 人 一行 到 这 个 视图 将 会 导致 CITY 属性 值 等 于 LONDON 的 一 行 插入 到 下 面 的 基本 表 中 。 
(需要 的 话 ， 新 行将 会 插入 到 视图 中 ) 

这 有 一 些 来 源 于 这 个 例子 的 观点 。 注 意 : 尽管 我 们 的 例子 是 基于 SQL 的 ， 但 不 意味 着 它们 
是 SQL 特有 的 〈SQL 特例 将 在 下 一 节 给 出 。) 

1) 一 般 的 ，CREATE TRIGGER 在 其 他 的 语句 中 特 指 一 个 事件 、 一 个 条 件 或 一 个 动作 : 

s 事件 是 数据 库 里 的 一 个 操作 (例如 INSERT ON LONDON_SUPPLIER)。 

e 条 件 是 一 个 布尔 表达 式 ， 当 它 的 值 为 TURE 时 ， 执 行动 作 (如 果 没 有 显 式 指明 条 件 ， 默 

认 值 就 是 TURE) 。 

@ 动作 是 一 个 触发 程序 (例如 “INSERT INTO S…”) 。 

事件 和 条 件 在 一 起 有 时 被 称 作 触 发 事件 。 事 件 、 条 件 、 动 作 三 者 一 块 被 称 作 触 发 器 。 显 然 ， 
触发 器 被 认为 是 EVENT- CONDITION-ACTION RULES (简称 ECA 规则 ) 。 

2) 可 能 的 事件 包括 INSERT、DELETE、UPDATE ( 可 能 特 指 属性 ) 、 到 达 交 易 结束 (COM- 
MIT) 、 到 达 一 天 的 特定 时 间 、 超 过 特定 缺 蚀 时 间 、 违 反 特 定 约束 等 。 

3) 大 体 上 ， 动 作 能 在 特殊 事件 之 前 (BEFORE) 、 之 后 (AFTER) 、 替 代 (INSTEAD OF ) 
执行 。 





”注意 到 声明 约束 规定 并 不 说 明 DBMS 什么 时 候 进行 完整 性 检查 ， 对 我 们 来 说 也 没 必要 规定 : 第 --， 因 为 如 果 他 
们 这 么 做 了 ， 他 们 需要 在 用 户 声明 约束 上 做 额外 的 工作 ; 第 二 ， 因 为 用 户 也许 会 做 错 。 甚 至 ， 我 们 想 让 系统 自 
己 决 定 什么 时 候 做 检查 ( 见 参考 文献 [9.5] 的 注解 ) 。 

@ ”事实 上 ， 级 联 删 除 是 触发 过 程 的 一 个 简单 的 例子 。 注 意 ， 但 是 ， 它 被 声明 定义 。 我 们 并 不 意味 着 建议 参照 动作 
是 -个 坏 主意 ， 仅 仅 因为 它们 被 触发 了 。 
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4) 一 般 地 ， 动 作 能 对 每 一 行 (FOR EACH ROW ) 或 每 一 句 话 (FOR EACH STATEMENT ) 
执行 。 
5) 一 般 地 ， 无 论 在 特殊 事件 发 生 之 前 还 是 之 后 动作 都 有 一 种 查询 数据 的 方法 。 
6) 与 触发 器 关联 的 数据 库 有 时 被 称 作 主动 数据 库 。 
这 一 部 分 讲 完了 ， 尽 管 触发 器 显然 有 作用 ， 但 仍然 需要 小 心 使 用 它们 ， 如 果 有 解决 问题 的 其 
他 方法 ， 就 不 该 用 触发 器 。 下 面 介绍 现实 中 触发 器 使 用 不 当 会 引发 问题 的 原因 
s 如 果 同 样 的 事件 引起 一 些 无 重复 的 触发 器 启动 ， 这 些 触发 器 发 生 的 序列 很 可 能 是 既 重要 又 
无 定义 的 。 
5 触发 器 71 可 能 引起 触发 器 72 启动 ， 而 72 又 会 引起 23 启动 ， 以 此 类 推 ( 触发 链 ) 。 
ea 触发 器 了 也 许 会 递归 地 再 次 触发 自己 执行 。 
a 由 于 触发 器 的 出 现 ， 简 单 的 INSERT 、DELETE 、UPDATE 的 作用 也 许 与 用 户 预 料 的 截然 
不 同 (尤其 是 INSTEAD OF ， 如 在 我 们 的 例子 中 。) 
把 上 述 几 点 总 结 起 来 ， 显 然 ， 一 系列 的 触发 器 是 很 难 理解 的 。 如 果 可 以 用 声明 解决 ， 一 般 比 
程序 解决 要 好 。 


9. 12 SQL 的 支持 


9.9 节 描 述 了 SQL 对 约束 分 类 模式 的 支持 
开始 考虑 : 
se SQL 根本 不 支持 类 型 约束 ， 除 了 那些 作为 应 用 的 物理 表示 的 直接 结果 的 基本 约束 。 例 如 ， 
我 们 在 第 5 章 看 到 的 ， 我 们 能 说 出 类 型 WEIGHT 的 值 必须 用 小 数 表 示 ， 但 是 我 们 不 能 说 
那些 数 必须 大 于 0 小 于 5 000。 
sm SQL 不 支持 属性 约束 。 
s SQL 不 支持 关系 变量 约束 。 它 支持 基本 表 约 束 ， 但 是 (a) 这 些 约束 将 仅仅 用 于 这 些 表 ， 
不 应 用 于 全 部 表 (尤其 是 不 应 用 于 视图 ) ;(b) 它们 不 局 限于 涉及 一 个 表 ， 还 可 涉及 任意 
复合 表 。 
sm SQL 不 支持 数据 库 约束 。 它 支持 一 般 约 束 一 一 断 计 约束。 但 是 这 些 约 束 要 求 必 须 涉 及 两 
个 以 上 的 表 。( 事 实 上 ， 除 了 接 下 来 的 “基本 表 约 束 ” 小 节 的 最 后 的 特例 以 外 ，SQL 的 基 
本 表 约 束 和 一 般 约束 逻辑 上 是 可 互 换 的 。) 
SQL 不 直接 支持 过 滤 约 束 ， 尽 管 这 些 约 束 能 被 触发 器 过 程 地 执行 。 对 于 关系 变量 《或 表 ) 
谓词 ， 过 渡 约 束 也 没有 清楚 的 概念 ， 而 这 些 谓词 是 很 重要 的 〈 见 下 一 章 ) 。 
1. 基本 囊 约 束 
SQL 基本 表 约 束 特 指 在 CREATE TABLE 或 者 ALTER TABLE 中 的 约束 。 每 个 约束 是 一 个 候 
选 码 约束 ， 或 外 码 约 束 ， 或 检查 约束 。 我 们 依次 讨论 每 一 种 约束 。 注 意 ; 规范 CONSTRAINT 
< constraint name > 能 够 被 选择 性 地 放 在 这 些 约束 的 定义 之 前 ， 为 这 些 约束 提供 了 名 字 。 为 了 简 
洁 ， 我 们 忽略 了 选择 〈 尽 管 在 实践 中 命名 所 有 的 约束 是 一 个 好 主意 ) 。 同 样 道 理 ， 我 们 也 忽略 一 
定 的 简写 (例如 定义 候选 码 “inline” 作 为 列 定义 的 一 部 分 ) 。 
候选 码 : SQL 候选 码 的 定义 可 用 下 面 的 两 种 形式 之 一 


PRIMARY KEY ( <column name commalist> ) 





或 者 在 很 多 方面 甚至 缺乏 支持 ， 我 们 就 从 这 里 


UNIQUE ( <column name commalist> ) 


这 个 < column name commalist > 必须 在 任何 情况 下 是 非 空 的 。” 一 个 基本 表 最 多 能 有 一 个 主 码 
规定 ， 但 是 可 以 有 任意 数目 的 唯一 性 规定 。 对 于 主 码 ， 每 个 特定 列 被 假设 成 非 空 的 ， 尽 管 没有 明 
确 指定 非 空 〈 见 下 面 检查 约束 的 讨论 ) 。 

外 码 : 外 码 定义 形式 为 





名 见习 题 9. 10。 
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FOREIGN KEY ( <column name commalist> )} 
REFERENCES <base table name> [ ( <column name commalist> ) | 

[ ON DELETE <referential action> ] 

[ ON UPDATE <referential action> | 

<referential action > 可 以 是 NO ACTION (默认 值 )、CASCADE、SET DEFAULT 或 SET 
NULL。” SET DEFAULT 和 SET NULL 将 在 第 19 章 中 讲述 。 当 外 码 所 参照 的 候选 码 不 是 主 码 时 ， 
第 二 个 < column name commalist > 是 必需 的 。 注 意 : 在 以 逗号 分 隔 列 的 表 中 ， 外 码 - 主 码 匹 配 是 
以 列 的 位 置 “ 从 左 到 右 ”， 而 不 是 列 名 为 基础 的 。 

检查 约束 : SQL 检查 约束 的 形式 


CHECK ( <bool exp> ) 


假定 CC 是 基本 表 了 的 检查 约束 。T 被 认为 违反 CC 当 且 仅 当 它 目前 包含 至 少 一 行 一 一 看 
本 部 分 的 最 后 一 节 一 一 当前 的 了 值 使 CC 的 布尔 值 为 假 。 注 意 : 一 般 的 ，SQL 的 布尔 值 能 够 任 
意 地 复杂 ; 甚至 在 现 有 的 上 下 文中 ， 它 们 显然 不 局 限于 指 基本 表 T， 而 指 任 何 数据 库 的 可 介入 
部 分 。 

下 面 是 CREATE TABLE 的 一 个 例子 ， 它 包含 基本 表 约 束 的 三 种 形式 : 


CREATE TABLE SP 
{( S# S# NOT NULL, P# P# NOT NULL, QTY QTY NOT NULL, 
PRIMARY KEY ( S#, P# ), 
FOREIGN KEY ( S# ) REFERENCES S 
ON DELETE CASCADE 
ON UPDATE CASCADE, 
FOREIGN KEY ( P# ) REFERENCES P 
ON DELETE CASCADE 
ON UPDATE CASCADE, 
CHECK {( QTY > QTY ( 0 ) AND QTY < QTY ( 5000 ) } ) :; 


我 们 假设 S# 和 P# 分 别 被 定义 成 表 S 和 了 的 主 码 ， 并 且 我 们 利用 简写 ， 通 过 简写 ， 在 列 的 定 
义 中 检查 约束 


CHECK ( <column name> IS NOT NULL ) 


能 够 被 简单 的 NOT NULL 表示 所 代替 。 检 查 约束 定义 可 以 被 列 定义 中 一 个 简单 的 NOT NULL 描 
述 所 代替 。 在 这 个 例子 中 ， 用 三 个 NOT NULL 代替 了 繁琐 的 检查 约束 定义 。 

最 后 我 们 再 重申 这 一 点 : 如 果 基 本 表 是 空 的 ， 那么 这 个 SQL 基本 表 约 束 通常 被 认为 是 满足 
的 ， 即 使 这 个 约束 是 “1 =2”( 甚 至 是 :“ 这 个 表 必 须 非 空 1” ) 。 

2. 断言 

我 们 转向 SQL 的 基本 约束 或 称 作 断 言 约 束 。 这 个 约束 被 CREATE ASSERTION 方式 定义 ,语法 : 


CREATE ASSERTION <constraint name> 
CHECK ( <bool exp> ) 


删除 断言 的 语法 如 下 : 


DROP ASSERTION <constraint name> } 


注意 : 与 本 书 中 所 讲 过 的 其 他 SQL DROP 操作 (DROP TYPE、DROP TABLE 和 DROP 
VIEW) 的 语法 不 同 ， 删 除 断 言 不 提供 RESTRICT 和 CASCADE 选项 。 

这 里 有 6 个 来 自 9.1 节 的 例子 ， 以 SQL 的 断言 形式 表达 。 通 过 练习 ， 你 也 许 想 要 尝试 用 基 
本 表 约 束 公 式 化 这 些 例 子 。 

1) 每 个 供应 商 的 状态 号 是 包含 在 1 到 100 范围 内 的 。 





< 参照 动作 > 的 特定 支持 (尤其 是 级 联 ) 表明 ， 至 少 在 镍 盖 下 ， 系 统 能 够 支持 某 种 多 关系 任务 ! 一 一 不 管 这 样 
的 操作 被 SQL 支持 与 否 。 
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CREATE ASSERTION SC1 CHECK 
( NOT EXISTS ( SELECT * FROM S 
WHERE  S.STRATUS < 0 
OR S.STATUS > 100 }  ) 


2) 每 名 在 伦敦 的 供应 商 的 状态 号 为 20。 


CREATE ASSERTION SC2 CHECK 
( NOT EXISTS ( SELECT * FROM 5 
WHERE S.CITY = 'London' 
AND S.STATUS + 20 ) ) } 


3) 如 果 有 一 些 零件 ， 则 至 少 有 一 个 是 蓝 色 的 。 


CREATE ASSERTION PC3 CHECK 
{ NOT EXISTS ( SELECT * FROM P ) 
OR EXISTS ( SELECT * FROM P 
WHERE P.COLOR = COLOR ('Blue') ) ) : 


4) 不 允许 出 现 两 个 供应 商 拥 有 相同 的 供应 商号 码 。 


CREATE ASSERTION SC4 CHECK 
( UNIQUE ( SELECT S.S# FROM S ) ); 


UNIQUE 在 这 是 一 个 SQL 操作 符 它 把 表 当 做 对 象 。 如 果 表 不 包括 重复 行 返回 TRUE， 和 否则 返 
回 FALSE 。 
5) 每 次 发 货 都 要 有 一 个 实际 的 供应 商 。 
CREATE ASSERTION SSP5 CHECK 
( NOT EXISTS 
( SELECT * FROM SP 
WHERE NOT EXISTS 


( SELECT * FROM S 
WHERE 8.S# = SP.S# ) ) ) ; 


6) 不 允许 出 现状 态 号 小 于 20 的 供应 商 提供 任何 数量 多 于 500 的 零件 。 


CRERTE ASSERTION SSP6 CHECK 
( NOT EXISTS ( SELECT * FROM S, SP 
WHERE S§.STATUS < 20 
AND S.S# = SP.S# 
AND SP.QTY > QTY ( 500 } ) ) ; 


进一步 考虑 下 面 的 例子 。 其 视图 定义 见 9. 11 节 : 


CREATE VIEW LONDON SUPPLIER 
AS SELECT St, SNAME, STATUS 
FROM 
WHERE Cry = ‘London’' ; 


我 们 已 经 知道 无 法 在 该 视图 定义 中 将 下 面 的 详细 说 明 包 含 进去 : 


UNIQUE ( S# ) 


然而 ,奇怪 的 是 我 们 可 以 指定 一 个 一 般 的 限定 形式 ， 如 下 所 示 : 


CREATE ASSERTION LSK CHECK 
( UNIQUE ( SELECT S# FROM LONDON_SUPPLIER ) ) ; 


3. 延迟 的 检查 

SQL 的 完整 性 约束 分 类 方案 在 何 时 检查 完整 性 的 问题 上 ， 也 与 本 书 所 讲 的 不 同 。 本 书 所 有 
约束 是 立即 检查 。 在 SQL 中 ， 约 束 可 以 被 定义 为 “可 延迟 的 ”和 “不 可 延迟 的 ";” 如果 约束 是 
可 延迟 的 ， 则 又 可 分 为 “最 初 延 迟 ” (INITIALLY DEFERRED) 和 “最 初 立即 ” (INITIALLY 
IMMEDIATE) 。 它 用 来 定义 事务 开始 时 约束 的 状态 。 不 可 延迟 约束 通常 是 立即 执行 的 ， 但 可 延 





QO 但是， 某 些 约 东 被 要 求 是 不 能 延迟 的 。 例 如 ， 如 果 FK 是 外 码 ， 那 么 匹配 候选 码 的 候选 码 约束 必须 是 不 延迟 的 。 





迟 约束 的 “可 延迟 ”是 由 下 面 的 语句 动态 打开 或 关闭 的 : 


SET CONSTRAINTS <constraint name commalist> <option> ; 


其 中 <option > 可 以 是 IMMEDIATE 或 DEFERRED。 下 面 是 一 个 例子 : 


SET CONSTRAINTS SSP5, SSP6 DEFERRED ; 


可 延迟 约 东 只 有 处 于 “IMMEDIATE” 状 态 时 才 会 被 检查 。 设 置 可 延迟 约束 到 立即 状态 会 使 
约束 被 立即 检查 。 如 果 检 查 失 败 ， 则 “SET IMMEDIATE” 也 失败 。COMMIT 强迫 所 有 可 延迟 约 
束 为 SET IMMEDIATE 状态 ; 如果 任何 完整 性 检查 失败 ， 则 事务 回 滚 。 

4. 触发 器 

SQL 的 CREATE TRIGGER 语句 如 下 : 

CREATE TRIGGER <trigger name> 
<before or after> <event> ON <base table name> 
REFERENCING <naming commalist> ] 


FOR EACH <row or statement> ] 
WHEN { <bool exp> ) ] <action> } 


解释 : 
1) < before or afrer > 表示 是 或 者 前 或 者 后 。( SQL 标准 不 支持 INSTEAD OF， 但 有 一 些 产 品 
支持 。) 
2) <event > 指 INSERT、DELETE 或 者 UPDATE。UPDATE 能 通过 语句 OF < column and 
commalist > 授予 权限 。 
3) 每 个 <naming > 是 下 列 形式 之 一 : 
OLD ROW AS <name> 
NEW ROW AS <name> 
OLD TABLE AS <name> 
NEW TABLE AS <name> 
4) <row or statement > 表示 ROW 或 者 STATEMENT (STAMENT 是 默认 值 ) 。ROW 表示 触 
发 器 会 在 触发 语句 影响 每 个 单独 的 行 的 时 候 启 动 。STATEMENT 表示 触发 喝 为 整个 语句 只 启动 一 
次 。 
5) 如 果 一 个 WHEN 语句 被 指定 ， 它 意味 着 仅 当 < bool exp > 为 TRUE 时 ，< action > 被 执行 。 
6) <action > 是 一 个 单一 的 SQL 声明 。( 这 个 单一 声明 是 复合 的 ， 就 是 说 ， 它 能 由 一 系列 被 
BEGIN 和 END 定 界 符 括 起 来 的 声明 组 成 。) 
最 后 ， 这 里 是 DROP TRIGGER 的 语法 : 


DROP TRIGGER <trigger name> ; 
就 像 DROP ASSERTION 一 样 ，DROP TRIGGER 不 提供 RESTRICT 和 CASCADE 选项 。 
9. 13 小 结 


本 章 讨论 了 完整 性 的 重要 概念 。 完 整 性 问题 是 确保 数据 库 的 数据 正确 的 问题 。( 尽 可 能 地 正 
确 ,不 幸 的 是 ， 我 们 真正 做 到 的 是 确保 数据 是 一 致 的 。) 所 以 我 们 对 问题 的 声明 方法 感 兴 趣 。 

我 们 首先 指明 完整 性 约束 采用 下 面 的 一 般 形式 : 

IF 某 些 元 组 在 特定 关系 变量 中 出 现 ，THEN 那些 元 组 满足 特定 的 条 件 。 

(类 型 约束 有 点 不 同一 一 见 后 面 的 讨论 。) 我 们 为 一 明 约 束 给 出 语法 ， 基 于 Tutorial D 的 微 
积分 版 本 ， 并 指出 语法 并 不 包括 任何 用 户 告知 数据 库 何 时 检查 ， 我 们 想 让 DBMS 自己 决定 何 时 
检查 。 我 们 声明 所 有 的 约束 检查 是 必须 是 即时 的 。 

接着 ， 我 们 解释 一 个 所 述 的 约束 是 一 个 谓词 ， 但 是 当 它 被 检查 时 即 当 前 的 关系 的 值 被 提 
交 给 谓词 中 提 到 的 关系 变量 时 ) ， 它 成 为 命题 。 所 有 应 用 于 数据 库 谓词 的 逻辑 AND 是 那个 关系 
变量 的 关系 变量 谓词 。 所 有 应 用 于 给 定数 据 库 的 关系 变量 谓词 的 逻辑 AND 是 那个 数据 库 的 数据 
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库 谓 词 。 黄 金 法 则 说 明 : 

没有 修改 操作 分 配给 任何 数据 库 的 值 使 得 数据 库 谓 词 的 值 为 FALSE。 

接着 ， 我 们 区 分 一 下 内 部 和 外 部 谓词 。 内 部 谓词 是 正式 的 ， 它 们 被 系统 理解 ， 被 DBMS 检 
查 (前面 章节 提 到 的 关系 变量 和 数据 库 谓 词 都 是 内 部 谓词 ) 。 相 反 ， 外 部 谓词 是 非 正 式 的， 它们 
被 用 户 而 不 是 被 系统 理解 。 封 闭 世界 假设 应 用 于 外 部 谓词 而 不 是 内 部 谓词 。 

你 也 许 会 突然 意识 到 ， 在 数据 库 上 下 文中 通常 所 说 的 “完整 性 ”是 指 畜 义 。 正 是 完整 性 约 
东 (在 特定 的 关系 变量 和 数据 库 中 ) 用 来 表明 数据 的 语义 。 这 就 是 为 什么 完整 性 非常 重要 的 一 
个 原因 ， 正 如 本 章 介绍 的 那样 。 

我 们 指出 ， 按 照常 理 ， 完 整 性 的 一 切 处 理应 用 于 整个 关系 变量 ， 而 不 是 仅仅 应 用 于 基本 表 
(特殊 情况 下 ， 它 们 应 用 于 视图 ) 一 一 尽管 应 用 于 视图 的 约束 能 通过 应 用 于 关系 变量 的 约束 获 
得 ， 当 然 视 图 也 是 从 关系 变量 获得 的 。 

接着 ， 我 们 把 完整 性 约束 分 成 四 类 : 

= 类 型 约束 定义 了 指定 数据 类 型 ( 域 ) 的 合法 值 ， 在 调用 相应 的 选择 子 时 被 检查 。 

sa 属性 约束 定义 了 指定 属性 的 合法 值 ， 任 何 情况 不 能 违反 ( 设 类 型 约束 已 被 检查 )。 

s 关系 变量 约束 定义 了 指定 关系 变量 的 合法 值 ， 仅 当 关 系 变量 被 更 新 时 检查 。 

= 数据 库 约束 定义 了 指定 数据 库 的 合法 取 值 ， 当 数据 库 被 更 新 时 检查 。 

然而 应 指出 ， 关 系 变量 和 数据 库 约束 的 区 别 不 仅 是 逻辑 上 的 而 更 是 实际 的 。 我 们 简单 地 介绍 
过 渡 约 束 。 

接着 我 们 介绍 实际 中 非常 重要 的 侯 选 码 、 主 码 、 选 择 码 、 外 码 。 候 选 码 满足 瞧 一 性 和 不 可 约 
性 ， 每 个 关系 变量 必须 至 少 有 一 个 候选 码 。 外 码 值 必须 与 相应 候选 码 值 匹 配 的 约束 是 参照 约束 。 
我 们 定义 了 许多 参照 完整 性 概念 ， 包 括 参 照 动作 的 概念 (尤其 是 级 联 约束 )。 后 面 的 讨论 把 我 们 
引入 到 触发 器 领域 的 分 支 中 。 

最 后 我 们 讨论 了 SQL 的 相关 方面 ， 现 总 结 一 下 。SQL 的 类 型 约束 非常 弱 ; 尤其 是 类 型 约束 
有 局 限 性 ， 在 问题 中 类 型 必须 有 物理 表示 。SQL 的 基本 表 约 束 (包括 对 码 的 特殊 支持 ) 和 一 般 
约束 (“断言 ") 包括 关系 变量 和 数据 库 约 束 的 模拟 (不 包括 过 渡 约 束 ) ， 但 是 ， 它 们 几乎 没 被 
仔细 分 类 (事实 上 ,它们 几乎 是 相互 转变 的 ， 并 且 为 什么 语言 包含 两 者 还 不 清楚 ) 。SQL 也 支持 
延迟 检查 。 最 后 ， 我 们 简单 地 概括 了 SQL 对 触发 器 的 支持 。 
习题 
9.1 在 9.1 节 的 例 1~6 中 ， 哪些 操 作 能 够 导致 违反 约束 ? 

9.2 给 出 9.1 节 中 例 1 ~6 Tutorial D 的 代数 公式 的 表示 形式 。 你 喜欢 哪个 ， 微 积分 公式 还 是 代数 公式 ”为 
什么 ? 
9.3 ”用 9.2 节 中 基于 微 积 分 的 Tutorial D 的 语法 ， 为 下 面 供应 商 - 零件 -项目 数据 库 的 “商业 规则 ” 

个 完整 性 约束 : 

a) 合法 城市 只 有 : London、Paris、Rome、Athens 、Oslo 、Stockholm 、Madrid 和 Amsterdam . 

b) 合法 的 供应 商 的 号 码 能 用 至 少 两 个 字符 表示 ， 以 “S” 开 始 ， 并 且 提 示 标 明 0 ~999 的 整数 。 

c) 所 有 红色 零件 的 重量 必须 小 于 50 磅 。 

d) 没有 两 个 项 目 在 同一 城市 。 

e) 在 任何 时 候 至 多 有 一 个 供应 商 在 雅典 。 

f) 没有 货物 拥有 多 于 平均 数量 二 倍 的 数量 。 

g) 最 高 状态 的 供应 商 和 最 低 状态 的 供应 商 不 能 位 于 同一 城市 。 

h) 每 个 项 目 必 须 设置 在 至 少 有 一 个 供应 商 的 城市 。 

i) 每 个 项 目 必 须 设 置 在 至 少 有 一 个 项 目的 供应 商 的 城市 。 

j) 必须 至 少 有 一 个 红色 的 零件 。 

k) 平均 供应 商 状 态 必 须 大 于 19。 

1) 每 个 伦敦 供应 商 必须 提供 零件 P2 。 

my) 至 少 一 个 红色 零件 的 重量 小 于 50 磅 。 

n) 在 伦敦 的 供应 商 必 须 与 巴黎 的 供应 商 提供 不 同 种 类 的 零件 。 
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9.4 


9.5 


9.6 
9.7 


9.8 


9.9 


9. 10 


9.11 
9.12 


o) 伦敦 的 供应 商 必须 提供 比 巴黎 的 供应 商 总 量 多 的 零件 。 

p) 没有 供 货 量 减少 到 少 于 当前 数目 的 一 半 。 

q) 在 雅典 的 供应 商 只 能 去 伦敦 或 巴黎 ， 伦 敦 的 供应 商 只 能 去 巴黎 。 

对 于 习题 9. 3 的 每 个 回答 : (a) 说 出 这 个 约束 是 关系 变量 约束 还 是 数据 库 约束 ; (b) 说 出 能 引起 约 
束 被 违反 的 操作 。 

用 图 4-5 中 “供应 商 -零件 - 工程 ”例子 中 的 数据 ， 说 出 下 列 操作 会 引起 什么 结果 。 

a) 更 新 工程 用， 置 CITY 值 为 New York。 

b) 更 新 零件 P5， 置 P# 值 为 P4。 

c) 更 新 供应 商 SS$， 置 S# 为 S$8， 此 时 的 参照 行为 是 RESTRICT。 

d) 删除 供应 商 S3 ， 此 时 的 参照 行为 是 CASCADE。 

e) 删除 零件 P ， 此 时 的 参照 行为 是 RESTRICT。 

f) 删除 工程 天， 此 时 的 参照 行为 是 CASCADE。 

g) 更 新 供 货 量 S1-P1-J1， 置 S# 为 S2 。 

h) 更 新 供 货 量 S3-P5-J5， 置 形 为 7。 

i) 更 新 供 货 量 S5-P5-J5， 置 天 为 18。 

j) 插入 供 货 量 记录 S5-P6- 了 7。 

k) 插入 供 货 量 记录 S4-P7-J6。 

1) 插入 供 货 量 记录 S1-P2- 访 ( 访 表示 默认 工程 号 ) 。 

本 章 的 内 容 介绍 了 外 码 删除 和 修改 规则 ， 但 是 它 没 提 到 任何 外 码 插入 规则 。 为 什么 ? 

某 个 教育 数据 库 包 含 一 个 公司 室内 培训 的 信息 。 对 于 每 一 门 课程 ， 数 据 库 中 都 有 它 的 先导 课程 的 信 
息 ; 对 于 每 一 门 开 设 的 课程 ， 数 据 库 中 都 有 它 的 教师 和 学 生 的 信息 ; 数据 库 中 也 包含 雇员 的 信息 。 如 
下 所 示 : 


COURSE COURSE#, TITLE } 


{ 
PREREQ { SUP COURSE#, SUB COURSE# } 
OFFERING { COURSE#, OFF#, OFFDATE, LOCATION } 
TEACHER { COURSE#, OFF#, EMP# } 
ENROLLMENT { COURSE#, OFF#, EMP#, GRADE } 


EMPLOYEE { EMP#, ENAME, JOB } 


PREREQ 关系 变量 中 ，SUP_COURSE# 是 SUB_COURSE # 的 先导 课程 ， 其 余 的 都 是 自 说 明 的 。 为 这 个 
数据 库 画 一 个 参照 图 ， 并 写 出 相应 的 数据 库 定义 〔 即 写 出 类 型 集 和 关系 变量 的 定义 )。 
下 面 表 示 一 个 包含 “部 门 ”和 “雇员 ”信息 的 数据 库 : 


DEPT { DEPT#, ..., MGR EMP#, ... } 

EMP { EMP#, ..., DEPT#¥, ... } 

每 个 部 门 有 一 个 经 理 (MGR_EMP#) ; 每 一 雇员 属于 某 个 部 门 (DEPT#) 。 画 出 参照 图 ， 写 出 数据 库 
定义 。 

下 面 表示 一 个 包含 “雇员 ”和 “程序 员 ” 信 息 的 数据 库 : 

BMP { EMP#, ..., JOB, ... } 

PGMR { EMP#, ..., LANG, ... } 


每 一 程序 员 都 是 雇员 ， 反 之 却 不 然 。 画 出 参照 图 ， 写 出 数据 库 定 义 。 

候选 码 被 定义 成 属 。 如 果 问 题 中 的 集合 是 空 〔 没 有 属性 ) ， 会 发 生 什么 ? 你 能 想象 出 一 一 个 空 的 候选 码 
的 用 途 吗 ? 

假定 R 是 一 个 n 维 关系 变量 。 候 选 码 R 能 拥有 的 最 大 数目 是 多 少 ? 

设 A 和 8B 是 两 个 关系 变量 ,说 出 下 面 每 一 种 情况 的 候选 码 : 

A WHERE . 

A t{...} 

A TIMES B 

A UNION B 

A INTERSECT B 


on TD 
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9. 13 
9. 14 
9. 15 
9. 16 
9. 17 


参考 


[9.1] 


[9.2] 


[9.3] 


[9.4] 


[9.5] 


[9.6] 


i 


f. A MINUS 8B 

g. A JOIN B 

h. EXTEND A ADD exp RS Z 

i. SUMMARIZE A PER B ADD exp AS 2 
J. a SEMIJOIN 8 

k. A SEMIMINUS B 


假设 A 和 B 满足 上 述 的 每 一 种 操作 (如 在 UNION 操作 下 它们 是 同一 种 类 型 ) 。 

重复 习题 9. 10， 把 candidate (候选 ) 用 foreign (外 ) 代替 。 

用 SQL 表达 式 写 出 习题 9. 3 的 表示 方法 。 

给 出 习题 9.7 ~9.9 的 SQL 数据 库 定 义 。 

我 们 已 经 看 到 每 个 关系 变量 (实际 上 每 个 关系 ) 与 一 些 谓 词 相 对 应 。 反 过 来 是 正确 的 吗 ? 

在 9.7 节 的 脚注 中 ， 如 果 值 S1 和 London 同时 在 元 组 中 出 现 ， 那 么 可 能 意味 着 供应 商 S1 在 London 
没有 办 公 室 。 实 际 上 ， 这 个 特殊 的 情况 是 不 太 可 能 的 。 为 什么 ? (提示: 想 一 想 封 闭 记 界 假设 。) 
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tegrity Assertions Using Redundant Aggregate Data,” Proc. 6th Int. Conf. on Very Large Data Bases, 
Montreal, Canada ( October 1980). 

对 某 一 特定 类 型 提出 了 一 个 有 效 的 完整 性 实施 方法 。 例 如 “集合 4 中 的 每 一 个 值 必须 小 于 集 
合 8 中 的 每 一 个 值 ,。” 可 以 看 出 : 给 出 的 约束 在 逻辑 上 等 同 于 另 一 个 约束 “和 集合 4 中 的 最 大 值 必 
须 小 于 集合 B 中 的 最 小 值 ”"。 将 这 一 类 约束 组 织 起 来 ， 用 隐藏 的 变量 来 自动 表示 最 大 值 与 最 小 值 
的 关系 ， 系 统 能 够 将 实施 给 定 更 新 操作 的 约束 时 的 比较 次 数 从 A 或 8 的 势 (取决 于 更 新 操作 应 用 
于 那个 集合 ) 减少 至 1， 当然 代价 是 必须 维护 这 些 隐藏 的 变量 。 

O. Peter Buneman and Erik K. Clemons: “Efficiently Monitoring Relational Databases,” ACM TODS 4, 
No. 3 ( September 1979). 

本 文 谈 到 了 有 效 实施 触发 过 程 ( 这 里 称 为 alerters) 的 方法 一 一 尤其 是 在 无 需 计 算 条 件 的 值 
的 情况 下 ， 判 断 触发 条 件 是 否 满足 这 一 问题 方面 。 其 中 给 出 了 检测 是 否 满足 触发 条 件 的 更 新 的 一 
种 方法 (也 称 “避免 ”算法 ); 讨论 了 当 避 免 算法 失败 时 减少 处 理 的 技巧 ; 判断 相关 元 组 的 一 个 
子 集 是 否 满 足 触发 条 件 。 

Stefano Ceri and Jennifer Widom:“Deriving Production Rules for Constraint Maintenance , Proc. 16th 
Int. Conf. on Very Large Data Bases, Brisbane, Australia ( August 1990). 

描述 了 基于 SQL 的 约束 定义 语言 ， 并 给 出 了 识别 可 能 违反 给 定 约束 的 所 有 操作 的 算法 。( 前 
面 参 考 文献 【9. 21] 中 给 出 了 这 种 算法 的 初步 介绍 。) 本 文 也 介绍 了 优化 和 正确 性 方面 的 知识 。 
Stefano Ceri, Roberta J. Cochrane, and Jennifer Widom :” Practical Applications of Triggers and Con- 
straints :Successes and Lingering Issues,” Proc. 26th Int, Conf. on Very Large Data Bases , Cairo,Egypt 
( September 2000 ) . 

摘要 中 的 引用 :“ 和 触发 器 应 用 的 有 意义 的 部 分 事实 上 不 过 是 各 种 完整 性 约束 级 别 的 完整 性 维 
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护 。” 这 篇 论文 还 提 到 许多 触发 器 ， 特 别 包 括 “ 约 束 保护 ”， 事 实 上 能 够 由 声明 表示 自动 生成 。 
Stefano Ceri, Piero Fraternali, Stefano Paraboschi , and Letizia Tanca:“ Automatic Generation of Produc- 
tion Rules for Integrity Maintenance,” ACM TODS 19 ,No.3(September 1994 ) . 

根据 参考 文献 [9.5] ， 本 文 介绍 了 自动 修 护 违反 约束 造成 损坏 的 可 能 性 。 约 束 被 编译 成 由 以 
下 组 件 组 成 的 产生 规则 : 

1) 一 系列 能 够 违反 约束 的 操作 。 

2) 如 果 违 反 约 束 (基本 上 是 原来 约束 的 相反 )， 布 尔 值 将 为 TRUE。 

3) 一 个 SQL 修复 过 程 。 

这 篇 文章 仍然 包括 相关 文章 的 全 面 研 究 。 
Roberta Cochrane, Hamid Pirahesh, and Nelson Mattos: “ Integrating Triggers and Declarative Con- 
straints in SQL Database Systems,” Proc. 22nd Int. Conf on Very Large Data Bases, Mumbai ( Bom- 
bay ) India ( September 1996 ) . 

“谨慎 定义 触发 和 声明 约束 之 间 的 相互 作用 ， 以 避免 它们 之 间 不 一 致 的 行为 ， 并 为 用 户 提供 
这 种 相互 作用 的 可 理解 的 模型 。 这 篇 论文 定义 了 这 样 一 种 模型 ” 。 此 模型 成 为 SQL 相关 方面 的 基 
础 。 
E. F. Codd. “Domains ，Keys ，and Referential Integrity in Relational Databases,” InfoDB 了 ，No. 1 
(Spring 1988 ) . 

该 文 讨论 域 、 主 码 和 外 码 。 由 于 Codd 是 这 三 个 概念 的 创造 者 ， 此 文 显然 具有 权威 性 ; 但 仍 
有 一 些 问 题 未 曾 解决 也 未 作 解 答 。 对 于 必须 选取 一 个 候选 码 作为 主 码 的 问题 ， 作 者 给 出 如 下 描 
述 :“ 不 支持 这 一 准则 好 像 是 在 用 这 样 一 种 寻 址 方式 的 计算 机 …… 每 次 特定 的 事件 发 生 时 ， 它 都 
改变 基数 (如 遇 到 的 地 址 是 素数 时 ) 。” 但 如 果 我 们 接受 这 一 点 ,那么 为 什么 不 用 一 种 任何 情况 
下 都 清晰 的 寻 址 方式 呢 ? 通过 供应 商号 来 寻 址 供应 商 和 通过 零件 号 来 寻 址 零件 ， 这 样 不 也 可 以 
吗 ? 发 货 也 是 同样 的 道理 ， 它 涉及 复合 的 寻 址 方式 〈 实 际 上 ， 对 于 全 程 唯一 的 寻 址 方法 有 很 多 内 
容 。 参 见 14 章 中 参考 文献 [14.21] 的 评论 ) 。 
C.J. Date: “Referential Integrity ,”Proc. 7th Int Conf. on Very Large Data Bases, Cannes, France 
(September 1981 ) . Republished in revised form in Relational Database: Selected Writings. Reading, 
Mass: Addison- Wesley (1986 ) . 

该 文 介绍 参照 行为 (尤其 是 CASCADE 和 RESTRICT) ， 即 本 章 9. 10 节 中 讨论 的 。 该 文 的 初 
版 (VLDB 1981) 和 修正 版 的 区 别 在 于 ， 初 版 遵从 参考 文献 [14.7] ， 人 允许 一 个 外 码 参照 多 个 关 
系 变量 ， 由 于 参考 文献 [9. 11] 中 所 说 的 原因 ， 修 正版 中 将 其 取消 了 。 
C.J. Date: “Referential Integrity and Foreign Keys” (in two parts), in Relational Database Writings 
1985 - 1989. Reading, Mass: Addison- Westey (1990 ) . 

， 该 文 的 第 一 部 分 讨论 了 参照 完整 性 的 概念 ， 并 提供 了 更 好 的 定义 方式 (和 基本 原理 ) 。 第 二 
部 分 提供 了 进一步 讲述 ， 并 给 出 了 应 用 的 办 法 。 特 别 讨论 了 (a) 外 码 重 释 ; (b) 复合 外 码 中 部 
分 为 室 ; (c) 有 共同 边界 的 参照 路 径 ( 如 不 同 的 参照 路 径 有 相同 的 起 点 和 终点 ) 时 引起 的 问题 。 
注意 ; 该 文 有 小 部 分 内 容 与 参考 文献 [9. 14] 相抵 触 。 

C.J. Date: “A Contribution to the Study of Database Integrity,” in Relational Database Writings 1985 — 
1989. Reading, Mass. : Addison- Wesley (1990). 

“本 文 试图 为 完整 性 问题 建立 一 个 结构 ， 提 出 一 个 完整 性 的 分 类 方案 ; 用 这 一 方案 来 澄清 数 
据 完整 性 概念 蕴含 的 重要 性 ; 概述 了 用 一 门 具体 语言 来 明确 表达 完整 性 约束 的 方法 ;指出 了 几 个 
需要 进一步 研究 的 领域 "。 本 章 的 部 分 内 容 是 基于 本 文 的 旱 期 版 本 ,但 它 的 分 类 方案 应 该 被 本 章 
9.9 节 中 的 修正 方案 取代 。 
C.J. Date: “Integrity,” Chapter 1 1 of reference[ 4. 21]. 

IBM 的 DB2 产品 确实 提供 了 声明 主 码 、 外 码 的 支持 。 (实际 上 ， 它 只 是 最 早 提 供 这 一 功能 
的 产品 之 一 。) 正如 该 文 所 说 ，DB2 提供 这 一 功能 并 不 是 因为 实施 中 有 什么 不 便 ， 而 是 为 了 保证 
可 预测 的 行为 。 举 个 简单 的 例子 : 设 关系 变量 尺 只 含有 两 个 元 组 ， 它 们 的 主 码 分 别 为 和 2， 考 
虚 更 新 请 求 “ 将 它们 的 主 码 都 乘 以 2”， 正 确 的 结果 是 的 两 个 元 组 主 码 分 别 为 2 和 4。 如 果 系 统 
先 将 2 更 新 为 4 (用 4 替换 2) ， 然 后 更 新 主 码 1 (用 2 蔡 换 1) ， 则 操作 成 功 ; 相反 ， 如 果 系 统 试 
图 先 更 新 1 (用 2 替换 1) ， 就 会 违反 唯一 性 的 约束 ， 则 操作 失败 (数据库 恢 复原 状 ) 。 换 言 之 ， 操 
作 的 结果 是 不 可 预测 的 。 为 避免 这 种 不 可 预测 性 ，DB2 简单 地 将 引起 多 种 可 能 结果 的 情况 设 为 不 
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合法 。 然 而 这 种 限制 过 于 严格 了 见 参 考 文献 [9. 17] 。 

注意 ， 像 前 面 的 例子 中 所 说 的 ，DB2 是 进行 “飞行 中 检查 ”的 (inflight checking) 一 一 也 
就 是 说 在 每 一 次 单个 元 组 更 新 后 进行 检查 。 这 种 飞行 中 检查 是 逻辑 错误 的 (参见 第 6 章 6. 5 节 中 
关于 “更 新 关系 变量 ”的 讨论 ) ; 只 是 因为 实现 方面 的 原因 才 这 样 做 。 

C.J. Date: “The Primacy of Primary Keys: An lnvestigation,” in Relational Database Writings 1997 — 
1994. Reading, Mass. : Addison- Wesley (1995 ) . 

该 文 基于 这 样 一 种 观点 “ 某 个 候选 码 比 其 他 的 更 重要 并 不 是 件 好 事 ”。 

C.J. Date: WHAT Not HOW : The Business Rules Approach to Application Development. Reading ， Mass. : 
Addison- Wesley (2000 ) . 

一 个 不 太 正式 的 《没有 技术 需求 的 ) “商业 规则 ”的 介绍 。 见 参考 文献 [9.21j 和 [9.22]。 
C.J. Pate: “Constraints and Predicates:A Brief Tutorial” (in three parts ) ,htip: //www. dbdebunk. com 
(May 2001). 

本 章 主要 基于 这 个 教程 。 如 下 是 此 论文 结论 部 分 的 改编 版 本 : 我 们 看 到 数据 库 是 一 系列 真 命 
题 组 成 。 事 实 上 ， 数 据 库 和 应 用 于 数据 库 命题 的 操作 者 是 一 个 这 辑 系统 。 这 里 的 逻辑 系统 是 指正 
规 系统 一 一 就 像 欧 氏 几 何 ， 有 公理 和 推理 规则 ， 通 过 这 些 推理 规则 我 们 能 够 证 明 这 些 来 自 公 理 的 
理论 。 当 Codd 1969 年 第 一 次 发 明 关系 模型 时 ， 他 指出 数据 库 不 是 一 系列 数据 ， 而 是 一 系列 事实 ， 
或 者 说 是 逻辑 家 们 称 作 的 真 命题 。 那 些 给 出 的 命题 说 明了 在 数据 库 关系 变量 中 表示 的 命题 。 推 断 
规则 就 是 新 命题 通过 给 出 的 命题 得 出 的 规则 。 即 这 些 规则 是 告诉 我 们 怎么 应 用 关系 几何 操作 的 规 
则 。 因 此 ， 当 乔 统计 信 休 人 关系 表 这 和 《大 基 是 四 应 某 查询 和 它 和 避风 大 和 和 
理 ， 实 际 上 就 证 明了 一 个 公理 ! 

一 昌 我 们 发 现 前 面 的 真 信 ， 我 们 就 会 看 到 在 处 理 “数据 库 问题 。 时 整个 正式 均 辑 开具 部 是 可 
以 获得 的 。 比 如 这 些 问题 ， 

a 对 用 户 来 说 数据 库 是 什么 样子 ? 

@ 查询 语言 是 什么 样子 ? 

@ 怎样 把 结果 提交 给 用 户 ? 

怎样 最 好 地 实施 查询 (更 一 般 地 说 ， 怎 样 估计 数据 库 表 达 式 )? 

一 开始 怎样 设计 数据 库 ? 

( 先 不 讨论 “完整 性 约束 是 什么 ?”” 这 种 问题 ) ， 所 有 这 些 成 为 易 受 逻辑 处 理 影响 的 逻辑 问 
题 ， 并 且 能 被 逻辑 回答 。 

当然 ， 它 没有 直接 说 关系 模型 支持 前 述 的 关于 数据 库 是 怎么 一 回 事 的 观念 。 也 就 是 说 ， 在 作 
者 看 来 ， 关 系 模式 是 坚固 的 ， 是 正确 的 ， 并 将 长 期 存在 。 

最 后 ， 既 然 数据 库 和 关系 操作 是 一 个 逻辑 系统 ， 我 们 看 到 完整 性 约束 的 至 关 重 要 性 。 如 果 数 
据 库 违反 了 完整 性 约束 ， 那 么 逻辑 系统 就 是 不 一 致 的 。 我 们 从 不 一 致 的 系统 中 根本 得 不 到 任何 答 
案 ! 假定 系统 的 问题 是 p 和 NoT p 均 为 tue (此 时 系统 不 满足 一 致 性 ) ， 这 里 p 是 命题 。 假 定 4 是 
任意 命题 ， 那么 : 

sp 为 trtue， 我 们 可 以 推出 p OR 4 为 tme 

sp OR gq 为 tue 并且 NOT pp 为 rue， 我们 可 以 推出 4g 为 mue 

但 g 是 任意 的 ! 这 就 是 说 ,任意 命题 在 一 个 不 一 致 的 系统 中 都 可 以 表示 为 tue。 

M. M. Hammer and S. K. Sarin:“ Efficient Monitoring of Database Assertions,” Proc. 1978 ACM SIG- 
MODP int Conf on Management of Data, Austin, Texas ( May/June 1978). “ 

该 文 描述 了 能 够 产生 一 种 完整 性 检查 过 程 的 算法 ， 这 种 算法 比 以 前 的 在 一 次 更 新 后 简单 地 强 
制 进行 的 检查 效率 更 高 。 在 编译 时 ， 这 一 检查 就 被 包含 到 应 用 目标 代码 中 。 有 时 可 能 会 发 现 无 需 
运行 时 检查 ;即使 需要 ， 也 有 可 能 通过 多 种 途径 显著 减少 数据 库存 取 次 数 。 

Bruce M. Horowitz:“ A Run- Time Execution Model for Referential Integrity Maintenance,” Proc. 8th 
IERE Int Conf on Data Engineering, Phoenix, Ariz. ( February 1992 ) . 

我 们 都 知道 下 列 三 种 结构 的 某 些 组 合 ， 

1) 参照 结构 (通过 参照 约束 相关 联 的 关系 变量 的 集合 ) 。 

2) 外 码 的 DELETE 和 UPDATE 规则 。 

3) 数据 库 中 的 实际 数据 值 。 

能 导致 相 冲 突 的 情况 ， 也 会 在 操作 时 引起 一 些 不 可 预期 的 行为 〈 详 细 内 容 请 参见 [9. 11] ). 
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[9.19] 


[9. 20] 


[9.21] 


[9.22] 


[9. 23] 


有 三 种 方法 来 解决 这 一 问题 : 

1) 留 给 用 户 解 决 。 

2) 让 系统 检测 并 拒绝 运行 时 可 能 会 引起 冲突 的 结构 定义 。 

3) 让 系统 检测 并 拒绝 实际 运行 时 的 错误 。 

方法 a 是 不 可 取 的 ,b 又 过 分 保守 [9. 13, 9. 20] ; Horowitz 建议 采用 方法 c， 本 文 给 出 了 -- 
些 运 行 时 要 遵守 的 规则 ， 并 证 明了 它们 的 正确 性 ,但 没有 考虑 这 些 运 行 时 检测 的 性 能 。 

Horowitz 是 SQL/92 定义 小 组 中 活路 的 一 员 ， 从 其 标准 中 参照 完整 性 部 分 不 难看 出 本 文 的 建 
议 可 行 。 
Victor M. Markowitz: “ Referential Integrity Revisited ，An Object- Oriented Perspective ,”Proc. 16th 
Int Conf on Very Large Data Bases, Brisbane, Australia ( August 1990 ) . 

该 文 的 标题 “面向 对 象 的 观点 ”表明 了 作者 开放 的 立场 : 参照 完整 性 支持 了 面向 对 象 结构 
的 关系 表示 。 该 文 并 不 是 真正 讨论 面向 对 象 的 ， 但 它 从 实体 /关系 图 ( 见 第 14 章 ) 出 发 ， 展 示 
了 一 个 会 产生 关系 数据 库 定义 的 算法 ， 在 此 算法 中 将 保证 参考 文献 [9.11] 中 定义 的 一 些 问 题 
(如 迭代 码 ) 不 会 出 现 。 

此 文 从 参照 完整 性 的 观点 讨论 了 三 种 商业 产品 (DB2、Sybase 和 Ingres，1990 年 前 后 ) 。 
DB2 提供 了 声明 支持 ， 功 能 受 限 ; Sybase 和 Ingres 提供 过 程 支持 〈 分 别 通 过 触发 器 和 规则 ) ， 限 
制 要 比 DB2 少 , 但 很 难 用 (虽然 Ingres 声称 其 在 技术 上 优 于 Sybase ) 。 
Victor M Markowitz: Safe Referential Integrity Structures in Relational Databases,” Proc. 17th Int Conf. on 
Very Large Data Bases, Barcelona, Spain (September 1991). 

该 文 提 出 了 两 个 “安全 条 件 ”， 以 保证 参考 文献 [9.11] 和 [9. 18] 讨论 的 问题 不 会 出 现 。 
此 文 也 考虑 了 在 DB2、Sybase 和 Ingres 中 实现 这 些 条 件 时 所 涉及 的 问题 (也 是 在 1990 年 左右 ) 。 
对 于 DB2， 该 文 表明 了 其 中 一 些 由 于 安全 原因 [9. 13] 而 实施 的 执行 限制 在 逻辑 上 是 不 必要 的 ， 
而 其 他 一 些 限 制 也 不 充分 (如 DB2 仍 允 许 一 些 不 安全 的 状态 ) 。 对 于 Sybase 和 Ingres， 此 文 说 它 
们 提供 的 过 程 无 法 检测 出 不 安全 的 ， 甚 至 不 正确 的 参照 定义 。 
Ronald G. Ross: The Business Rule Book: Classifying, Delining, and Modeling Rules ( Version 3.0). 
Boston, Mass. : Database Research Group ( 1994). 

见 参考 文献 [9. 22] 的 注释 。 
Ronald G. Ross: Business Rule Concepts. Houston, Tex. : Business Rule Solutions Inc. (1998). 

在 近年 的 商业 化 产品 中 ， 都 提供 了 大 量 的 商业 规则 支持 ; 一 些 业 界 人 十 开始 提议 将 这 些 规 
则 作为 设计 和 建立 数据 库 和 应 用 程序 的 更 好 的 基础 (更 好 ， 是 相对 于 已 确立 的 方法 ， 如 “实体 / 
完整 性 模型 ” “对 象 模型 "、“ 语 义 模型 ”等 ) 。 我 们 一 致 认为 ， 因 为 商业 规则 实际 上 是 对 用 户 更 
友好 的 关于 谓词 、 命 题 和 完整 性 的 其 他 方面 的 说 明 方 法 。Ross 是 最 早 提出 商业 规则 这 -方法 的 ， 
对 于 感 兴趣 的 人 ， 他 的 书 值得 一 读 ， 参 考 文献 [9.21] 读 起 来 有 些 费力 ， 参 考 文献 [9.22] 是 
一 个 简明 教程 。Ross 所 写 的 另 一 本 书 “Principles of the Business Rule Approach” (Addison- Wes- 
ley，2003) 已 经 出 版 了 。 
M. R. Stonebraker and E. Wong:” Access Control in a Relational Data Base Management System by 
Query Modification , Proc. ACM Nat Conf ,San Diego ,Calif. ( November 1974 ) . 

在 University Ingres prototype [8. 11] 一 书 中 最 先 提出 了 一 种 关于 完整 性 约束 的 有 趣 的 实施 
方法 (也 用 于 安全 性 约束 一 一 参见 第 17 章 ) ， 此 方法 基于 请 求 修改 (request modification ) 。 完 整 
性 约束 通过 DEFINE INTEGRITY 语句 定义 。 


DEFINE INTEGRITY ON <relvar name> IS <bool exp> 
例如 : 

DEFINE INTEGRITY ON S IS S.STATUS > 0 

设 用 户 U 试图 进行 下 列 操作 : 


REPLACE S ( STATUS = S.STATUS -~ 10 ) 
WHERE S.CITY = "London" 


然后 Ingres 自动 修改 REPLACE 语句 为 : 
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[9. 24] 


[9.25] 
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REPLACE S ( STATUS = S.STATUS - 10 ) 
WHERE S.CITY = “London" 
AND ( S.STATUS - 10 ) > 0 


当然 ， 被 修改 过 的 操作 不 会 违反 完整 性 约束 。 

此 方法 的 一 个 缺陷 是 并 非 所 有 的 约束 都 可 以 用 这 种 简单 的 方法 加 以 调整 ; 实际 上，QUEL 
只 支持 布尔 表达 式 是 一 个 简单 限制 条 件 的 约束 。 然 而 ， 即 使 是 有 限 的 支持 ， 也 不 能 在 许多 的 实际 
系统 中 得 到 体现 。 

A. Walker and S. C. Salveter: "Automatic Modification of Transactions to Preserve Data Base Integrity 
Without Undoing Updates ，State University of New York, Stony Brook N. Y. : Technical Report 81/ 
026 (June 1981 ) . 

本 文 讲述 了 一 个 技巧 ， 用 来 自动 修改 “事务 模板 ”( 也 就 是 事务 源 代 码 ) 为 相应 的 安全 模板 
(safe template) 。 安 全 ， 是 指 经 修改 后 的 模板 不 会 违反 已 声明 的 完整 性 约束 ， 它 是 通过 向 原 模板 
中 加 入 查询 和 测试 来 实现 的 。 在 运行 时 ， 如 果 测 试 失败 ， 则 事务 被 拒绝 ， 并 产生 -个 错误 消息 。 
Jennifer Widom and Stefano Ceri (eds. ) : Active Database Systems: Triggers and Rules for Advanced 
Database Processing. San Francisco, Calif. : Morgan Kauvfmann (1996). 

关于 “主动 数据 库 ”( 也 就 是 能 对 特定 事件 进行 行为 指定 的 数据 库 系 统一 一 即 具 有 触发 器 的 
系统 ) 的 有 用 的 研究 纲要 和 自学 教程 ， 其 中 包括 了 几 个 原型 系统 ， 尤 其 是 有 IBM Research 的 Star- 
burst (参见 [18. 21] 、[18.48] 、[ 26. 19] 、[ 26.23] 、[26.29] 和 [26.30]) 以 及 加 利 福 尼 亚 大 
学 伯克利 分 校 的 Postgres ( 见 参考 文献 【26. 36] 、[26. 40] 和 [26. 42，26. 43] ) 。 该 书 也 总 结 了 
SQL: 1992 、SQL: 1999 (早期 版 本 ) 和 一 些 商业 产品 (Oracle 、Informix 、Ingres 等 ) 的 相关 内 容 ， 
还 包括 一 个 有 用 的 参考 书目 录 。 


第 10 章 视 图 


10.1 引言 


正如 第 3 章 中 所 述 ， 关 系 模型 中 的 视图 只 是 一 个 命名 了 的 关系 代数 表达 式 (或 关系 代数 的 
等 价 形式 ) 。 比如 : 


VAR GOOD SUPPLIER VIEW 
( S WHERE STATUS > 15 ) { S#, STATUS, CITY } ; 


当 这 条 语句 执行 时 ， 此 关系 代数 表达 式 ( 即 这 个 视图 定义 表达 式 ) 没有 被 计算 ， 只 是 让 系 
， 然而 ， 
对 于 用 户 来 说 ， 数 据 库 中 好 像 确 实 有 一 个 叫 作 GOOD_SUPPLIER 的 关系 变量 ， 其 元 组 如 图 10-1 
中 没有 阴影 的 部 分 所 示 (假设 的 样本 数据 ) 。 换 名 话说，GOOD_SUPPLIER 指向 一 个 导出 的 〈 虚 
的 ) 关系 变量 ， 其 值 是 视图 定义 表达 式 计算 后 所 得 到 的 结果 。 

在 第 3 章 中 我 们 这 样 解释 视图 (如 GOOD _ 
SUPPLIER) ， 它 是 一 个 用 来 观察 底层 数据 的 窗口 : 
任何 所 对 应 数据 的 更 新 ， 通 过 这 个 窗口 都 可 以 实 
时 和 自动 地 看 到 (只 要 是 在 视图 可 见 的 范围 内 ); 
相应 地 ， 任 何 对 视图 的 更 新 将 自动 和 实时 地 在 所 
映射 的 数据 上 进行 更 新 。 这 样 ， 通 过 窗口 也 是 可 
见 的 。9 图 10-1 基本 关系 变量 S 上 的 视图 GOOD_ 

现在 ,依据 环境 不 同 ， 可 能 有 用 户 没 有 意识 SUPPLIER ( 如 没有 阴影 的 部 分 所 示 ) 

到 GOOD_SUPPLIER 是 一 个 视图 ; 也 有 的 用 户 可 能 意识 到 这 一 点 ， 明 白 后 面 有 一 个 真正 的 〈 基 
本 的 ) 关系 变量 S， 还 有 一 些 用 户 以 为 GOOD_SUPPLIER 是 一 个 “真正 的 ” (基本 的 ) 关系 变 
量 。 无 论 用 户 处 于 哪 一 种 情况 ， 都 没什么 不 同 。 重 要 的 是 ， 用 户 能 像 操 纵 一 个 真正 的 或 基本 的 关 
系 变量 一 样 来 操纵 GOOD_SUPPLIER。 例 如 ， 下 面 有 一 个 对 GOOD_SUPPLIER 的 查询 : 


GOOD_SUPPLIER WHERE CITY # 'London， 
设 数 据 如 图 10-1 所 示 ， 则 结果 为 : 


EE 

辣 硕 用 F 

此 查询 的 结果 就 像 是 常规 的 关系 变量 上 的 一 个 常规 查询 。 并 且 ， 如 第 3 章 所 说 的 ， 系 统 对 这 
种 查询 的 处 理 是 将 它 转化 为 在 所 映射 的 关系 变量 (或 基本 关系 变量 ) 上 的 等 价 查 询 。 实 现 的 方 
法 是 将 查询 中 出 现 的 视图 名 字 替 换 为 定义 视图 的 表达 式 。 在 这 个 例子 中 ， 苦 代 过 程 为 : 


( ( S WHERE STATUS > 15 ) { S#, 上 时 CETY }- ) 
RE CITY  'London' 








它 的 等 价 形式 为 


( S WHERE STATUS > 15 AND CITY # oe ) 
S#, Bdos; GITY’Y 


这 个 查询 产生 前 面 所 示 的 结果 。 





加 “实际 上 ,在 SQL 中 可 能 看 不 到 这 些 ， 见 10.6 节 关 于 WITH CHECK OPTION 的 讨论 。 
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顺便 提 -- 下， 替代 过 程 只 是 更 精确 地 描述 出 这 个 工作 (由 于 关系 封闭 的 特性 ): 将 视图 名 字 
用 视图 定义 表达 式 代替 。 关 系 封闭 性 是 指 ， 无 论 何 时 ， 若 关系 变量 名 R 出 现在 一 个 表达 式 中 ， 
则 一 个 关系 表达 式 可 以 替代 它 出 现 〈 只 要 它 与 有 的 类 型 相当 ) 。 换 名 话说 ， 视 图 能 够 正常 工作 是 
因为 在 关系 代数 中 关系 是 封闭 的 一 一 这 就 是 为 什么 封闭 性 有 如 此 重要 地 位 的 原因 。 

更 新 操作 也 以 同样 的 方式 工作 。 例 如 以 下 操作 : 


UPDATE GOOD SUPPLIER WHERE CITY = 'Paris’ 
{ STATUS := STATUS + 10 }; 


被 转化 为 : 


UPDATE S WHERE STATUS > 15 AND CITY = 'Paris’ 
{ STATUS := STATUS + 10 }; 


对 INSERT 和 DELETE 操作 的 处 理 与 之 相似 。 

1. 进一步 举例 

这 一 小 节 将 举 出 更 多 的 例子 ， 以 便 在 后 文 参考 。 

]. VAR REDPART VIEW 

( P WHERE COLOR = COLOR ('Red') ) { ALL BUT COLOR } 
RENAME WEIGHT RS WT ; 

视图 REDPART 是 关系 变量 parts 的 选择 投影 (附加 了 属性 重 命名 ) 。 包 含 属性 P#、PNAME、 

WT 及 CITY 并 且 只 包含 红色 零件 的 元 组 。 


2, VAR PQ VIEW 
SUMMARIZE SP PER P { P# } ADD SUM ( QTY ) AS TOTOTY ; 


视图 PQ 是 一 种 对 底层 数据 的 统计 汇总 或 压缩 。 


3. VAR CITY_ PAIR VIEW 
{ ( 5 RENAME CITY AS SCITY ) JOIN SP JOIN 
( P RENAME CITY AS PCITY ) ) { SCITY, PCITY } ; 


CITY_PAIR 视图 通过 供应 商号 以 及 零件 号 将 供应 商 表 、 零 件 表 和 发 货 表 进行 连接 ， 然 后 将 
结果 投影 到 SNAME 和 PNAME。 不 严格 地 说 ， 当 且 仅 当 位 于 x 市 的 供应 商 提 供 了 存放 在 y 市 的 
零件 时 ， 城 市 对 (x，y) 在 视图 CITY_PAIR 中 出 现 。 比 如 ， 供 应 商 S1 提供 零件 P1，S1 位 于 
London， 零 件 也 存放 在 London ， 则 城市 对 (London ，London) 出 现在 视图 中 。 


4. VAR HEAVY REDPART VIEW 
REDPART WHERE WT > WEIGHT ( 12.0 ) ; 


此 视图 经 由 另 一 个 视图 定义 。 
2. 定义 和 删除 视图 
下 面 是 定义 视图 的 Tutorial D 语法 : 


VAR <relvar name> VIEW <relation exp> 

<candidate key def list> ; 

< candidate key def list > 允许 为 空 〈 即 规格 说 明 可 以 省 略 ) ， 因 为 系统 可 以 推断 出 视图 的 候 
选 码 [3.3]。 在 GOOD_SUPPLIER 的 例子 中 ,系统 应 该 意识 到 唯一 的 候选 码 是 |S#| ， 是 从 底 
层 基本 关系 变量 S 中 继承 来 的 。 

我 们 说 一 一 用 第 2 章 中 的 ANSL SPARC 术语 一 一 视图 定义 综合 了 外 部 模式 的 功能 和 外 模式 / 
概念 模式 映射 的 功能 ， 因 为 它 既 指 出 了 外 部 实体 的 内 容 (视图) ， 也 说 明了 外 部 实体 到 概念 模式 
(就 是 到 底层 的 基本 关系 变量 ) 映射 的 方式 。 注 意 : 一 些 视图 的 定义 没有 指明 外 模式 /概念 模式 
映射 ， 而 是 外 模式 /外 模式 映射 。 前 面 的 视图 HEAVY_REDPART 就 是 这 样 的 一 个 例子 。 

删除 一 个 视图 的 语法 是 : 


DROP VAR <relvar name> } 





名 10 介 观 图 187 


< relvar name > 是 指 一 个 视图 。 在 第 6 章 中 曾 提 到 过 ， 如 果 存 在 任 一 视图 定义 指向 一 个 基本 关系 
变量 ， 则 删除 此 基本 关系 变量 的 请 求 将 会 失败 。 与 此 相似 ， 如 果 存 在 另 一 个 视图 定义 指向 某 个 视 
图 ， 则 删除 此 视图 的 请 求 也 将 会 失败 。 替 换 的 方法 是 〈 与 引用 约束 类 似 ) ， 可 以 考虑 扩展 视 网 定 
义 语句 ， 使 之 包括 “RESTRICT” 或 者 “CASCADE”。RESTRICT 的 意思 是 当 某 个 视图 被 其 他 视 
图 定义 所 引用 时 ， 对 此 视图 的 删除 请 求 将 会 失败 ; CASCADE 的 意思 是 删除 请 求 会 级 联 地 删除 引 
用 此 视图 的 视图 。 注 意 : SQL 不 支持 这 样 的 选项 ,但 可 以 在 DROP 语句 而 不 是 视图 定义 语句 中 
对 这 一 选项 进行 设置 。 这 里 没有 默认 值 ， 所 需 选 项 必须 显 式 给 出 (参见 10.6 节 )。 


10.2 视图 的 用 途 


使 用 视图 有 很 多 原因 ， 下 面 给 出 其 中 的 一 些 理由 : 

m 视图 提供 了 一 个 快捷 方式 或 者 是 “ 宏 ” 的 功能 。 

考虑 查询 “存放 在 伦敦 的 供应 商 所 提供 的 零件 的 城市 " 。 用 前 面 的 “进一步 举例 ”小 节 中 的 
视图 CITY_PAIR， 下 述 形 式 就 可 以 实现 ; 


( CITY PAIR WHERE SCITY = 'London' ) { PCITY } 


相反 ， 没 有 视图 ， 这 个 查询 的 实现 就 要 复杂 得 多 : 


( ( ( S RENAME CITY AS SCITY ) JOIN SP JOIN 
( P RENAME CITY RS PCITY ) ) 
WHERE SCITY = 'London’' ) { PCITY } 


用 户 可 以 直接 使 用 第 二 种 格式 一 一 在 安全 性 约束 上 是 相同 的 一 一 但 第 一 种 显然 要 简单 一 些 。 
第 一 种 只 是 第 二 种 的 快捷 方式 ;在 执行 前 ， 系 统 的 视图 处 理 机 制 将 有 效 地 把 第 一 种 格式 转化 为 第 
二 种 格式 。 

这 一 点 与 编程 语言 中 的 “ 宏 ” 很 相似 。 原 则 上 ， 编 程 语言 的 用 户 可 以 在 源 代码 中 直接 写 出 
宏 的 扩展 后 的 形式 一 一 但 当 用 到 宏 ， 让 宏 处 理 系 统 来 进行 这 一 转换 时 ， 这 一 过 程 要 简便 得 多 
(也 可 能 是 出 于 便于 理解 的 原因 ) 。 相 似 的 道理 也 可 用 于 视图 。 这 样 ， 视 图 在 数据 库 中 的 作用 与 
宏 在 编程 语言 中 的 作用 是 相似 的 ， 宏 的 优势 显然 也 就 是 视图 的 优势 。 尤 其 注意 ， 对 于 视图 操作 没 
有 运行 时 的 系统 开销 ， 只 有 视图 处 理 时 的 一 点 系统 开销 (与 宏 的 扩展 相似 )。 

sm 视图 使 相同 的 数据 可 在 同一 时 间 被 不 同 的 用 户 以 不 同 的 方式 查看 。 

视图 可 以 方便 地 让 用 户 仅 注 意 到 自己 关心 的 数据 而 忽略 其 他 。 当 有 很 多 要 求 各 异 的 用 户 时 ， 
这 一 点 就 显得 很 重要 了 ， 视 图 使 这 些 用 户 同时 与 同一 个 数据 库 交互 。 

视图 对 于 隐藏 的 数据 自动 给 予 安全 保障 。 

“隐藏 的 数据 ”是 指 在 某 个 视图 中 不 可 见 的 数据 (如 在 视图 GOOD_ SUPPLIER 中 的 供应 商 
名 称 ) 。 显 然 ， 这 些 数 据 对 于 特定 的 视图 来 说 ， 在 存 取 中 是 安全 的 ， 因 此 强制 用 户 通过 视图 来 对 
数据 库 进 行 存 了 到， 相当 于 建立 了 一 个 简单 而 有 效 的 安全 机 制 ， 对 于 这 一 用 途 ， 第 17 章 将 进行 更 
详细 的 讨论 。 

a 视图 能 提供 逻辑 上 的 数据 独立 性 。 

这 是 视图 最 重要 的 用 途 之 一 ， 详 见 下 一 小 节 。 

1. 逻辑 上 的 数据 独立 性 

这 里 提醒 读者 ， 逻 辑 上 的 数据 独立 性 可 以 定义 为 : 用 户 或 用 户 程序 在 数据 库 效 辑 结构 ( 让 
辑 结构 是 指 概念 层 的 结构 一 一 参见 第 2 章 ) 发 生 改 变 时 的 抗 扰 性 。 即 通过 视图 ， 可 以 取得 关系 
系统 中 逻辑 上 的 数据 独立 性 。 这 种 逻辑 上 的 数据 独立 性 有 两 个 方面 : 可 成 长 性 (growth) 和 可 重 
构 性 〈restructuring) 。( 可 成 长 性 这 个 概念 很 重要 ， 但 与 视图 关系 不 大 ， 这 里 介绍 它 只 是 为 了 内 
容 上 的 完整 。) 

me 可 成 长 性 

随 着 数据 库 纳 入 新 的 数据 而 不 断 增长 ， 对 于 此 数据 库 的 定义 也 相应 地 增长 了 。 对 于 “成 长 ” 
有 两 种 可 能 的 情况 : 

1) 已 有 的 基本 关系 变量 为 增加 新 的 属性 而 扩展 ， 这 是 相应 于 给 对 象 的 某 一 种 现存 的 类 型 增 
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加 的 一 种 新 信息 而 言 一 一 如 对 供应 商 基本 关系 变量 增加 折扣 这 一 属性 。 

2) 引入 一 个 新 的 基本 关系 变量 ， 这 是 相应 于 增加 一 种 新 的 类 型 对 象 的 一 一 例如 ， 对 于 供应 
商 - 零件 数据 库 增 加 工程 信息 。 

这 两 种 情况 对 于 已 存在 的 用 户 或 用 户 程序 都 没有 影响 ， 至 少 理论 上 是 这 样 (针对 于 SQL 中 
的 “SELECT * ”的 警告 ， 请 参考 第 8 章 中 的 例 8. 6. 1 的 第 6 点 )。 

s 可 重 构 性 

有 了 时 需要 对 数据 库 进 行 重新 构造 。 虽 然 全 部 信息 的 内 容 没有 改变 ， 但 信息 的 逮 辑 位 置 可 能 已 
经 改变 。 也 就 是 说 ， 对 于 基本 关系 变量 的 属性 的 分 配 同样 发 生 了 改变 。 这 里 ， 我 们 只 考虑 一 个 简 
单 的 例子 。 假设 出 于 某 种 原因 ， 和 希望 用 下 面 的 两 个 基本 关系 变量 蔡 代 基本 关系 变量 S: 


VAR SNC BASE RELATION { S# S#, SNAME NAME, CITY CHAR } 
KEY { S# } ; 


VAR ST BASE RELATION { S# S#, STATUS INTEGER } 
KEY { S# } ; 


重要 的 是 ， 旧 关系 变量 S 是 新 关系 变量 SNC 和 ST 的 连接 (SNC 和 ST 都 是 S 的 投影 ) 。 内 
此 以 这 个 连接 创建 一 个 视图 S: 


VAR S VIEW 
SNC JOIN ST } 


任何 以 前 对 基本 关系 变量 S 的 引用 现在 都 成 为 针对 视图 S$ 的 。 这 样 一 一 假设 系统 能 够 正确 处 
理 视图 中 的 数据 操作 一 一 相对 于 数据 库 的 重 构 ， 对 用 户 和 用 户 程序 是 没有 影响 的 。° 

另外 ， 对 于 将 原来 的 供应 商 关系 变量 S 用 它 的 两 个 投影 SNC 和 ST 代替 ， 并 不 是 随 随便 便 就 
可 以 这 样 做 的 ， 尤 其 是 当 发 觉 发 货 关 系 变量 SP 也 要 进行 一 些 处 理 时 一 一 因为 它 有 一 个 参照 原 关 
系 变量 S 的 外 码 。 见 本 章 末 的 习题 10. 14 。 

再 回 到 本 章 讨 论 的 主线 : 当然， 从 SNC- ST 这 个 例子 并 不 能 得 出 结论 ， 对 于 所 有 的 重 构 行 
为 ， 都 能 相应 地 得 到 逻辑 上 的 数据 独立 性 。 关 键 是 ， 是 否 存在 一 个 从 重 构 后 的 数据 库 版 本 到 原来 
的 数据 库 版 本 的 明确 的 映射 关系 (也 就 是 说 ， 重 构 是 否 可 逆 )， 或 者 说 ， 数 据 库 的 这 两 个 版 本 基 
否 是 信息 等 价 的 (information-equivalent) 。 如 果 不 是 ， 就 无 法 得 到 逻辑 上 的 数据 独立 性 。 

2. 两 个 重要 的 准则 

通过 前 面 对 逻 辑 数 据 独 立 性 的 讨论 ， 我 们 得 出 另 一 个 要 点 ， 即 视图 用 于 两 个 非常 不 同 的 








自 的 : 
s 定义 视图 V 的 用 户 显然 知道 相应 的 视图 定义 表达 式 X; 只 要 表达 式 XX 可 用 的 地 方 ， 视图 Y 
都 可 用 。 但 这 种 用 法 〈 如 前 文 所 示 ) 只 是 快捷 方式 。 

ma 当 用 户 只 被 告知 视图 了 存在 并 可 用 时 ， 他 可 能 并 不 知道 视图 定义 表达 式 X; 对 于 这 样 的 用 
户 ， 视 图 V 在 外 观 上 和 行为 上 都 应 像 是 基本 关系 变量 。 

继续 前 面 的 讨论 ， 对 于 哪个 关系 变量 是 基本 的 而 有 娜 个 关系 变量 是 导出 的 这 样 一 个 问题 具有 很 
大 的 随意 性 ， 现 在 讨论 这 个 问题 。 还 以 前 面 “可 重 构 性 ”小 节 中 的 关系 变量 S、SNC 和 ST 为 
例 。 很 显然 ， 可 以 

(a) 定义 $ 为 基本 关系 变量 ， 而 SNC 和 ST 为 该 基本 关系 变量 投影 得 到 的 视图 ; 

(b) 也 可 以 定义 SNC 和 ST 为 基本 关系 变量 ， 而 S 为 这 两 个 基本 关系 变量 连接 操作 得 到 的 
视图 。 





”这 里 也 仅 是 指 原 则 上 ! 不 幸 的 是 ， 当 今 的 SQL 产品 (以 及 SQL 标准 ) 通常 不 支持 在 视图 上 对 数据 进行 操作 ， 
因此 也 就 不 支持 例 中 对 变化 的 抗 扰 性 。 具 体 而 言 ， 大 多 数 SQL 产品 不 是 所 有 的 ) 支持 视图 检索 ， 因 此 可 以 为 
检索 操作 提供 完整 的 逻辑 数据 独立 性 。 据 笔者 所 知 ， 没 有 SQL 产品 支持 正确 的 视图 更 新 (标准 SQL 间 样 不 支 
持 ) ， 因 此 没有 SQL 可 以 为 数据 更 新 提供 完整 的 逻辑 数据 独立 性。 注意 : 参考 文献 [20. 1] 中 描述 的 一 种 产品 
能 够 提供 正确 的 视图 更 新 (但 不 是 SQL 产品 ) 。 . 

全 第 12 章 12.2 节 对 于 无 丢失 分 解 (nonloss decomposition) 的 讨论 与 此 相关 。 
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在 基本 关系 变量 和 导出 的 关系 变量 中 不 能 有 随意 的 或 不 必要 的 区 别 。 这 一 事实 称 为 互 换 性 准 
则 (The Principle of Interchangeability) 〈 对 基本 关系 变量 和 导出 的 关系 变量 而 诗 ) 。 尤 其 注意 ， 
这 一 准则 暗示 视 网 一 定 是 可 更 新 的 一 一 数据 库 的 可 更 新 性 不 能 取决 于 “哪些 关系 变量 是 基本 的 ， 
哪些 是 导出 的 ”这 样 一 个 可 随意 的 选择 。 详 见 10.4 节 的 讨论 。 

我 们 暂时 将 基本 关系 变量 的 集合 称 为 真实 数据 库 (real database) 。 一 个 典型 的 用 户 并 非 只 和 
真实 数据 库 自身 交互 ， 而 是 与 可 表达 数据 库 (expressible database) 交互 ， 可 表达 数据 库 是 基本 
关系 变量 和 视图 的 混和 体 。 现 在 假设 ， 可 表达 数据 库 中 的 任何 一 个 关系 变量 都 不 能 由 其 余 的 关系 
变量 派生 出 来 (因为 这 样 的 关系 变量 可 以 被 删除 而 没有 信息 丢失 )， 这样 ， 从 用 户 的 角度 看 ， 它 
们 都 是 基本 关系 变量 。 当 然 ,， 它们 之 间 都 是 相互 独立 的 (用 第 3 章 中 的 术语 来 说 就 是 “自治 
的 ” ) 。 对 数据 库 来 说 也 是 同样 只 要 所 有 的 选择 是 信 
息 等 价 的 。 这 一 事实 称 为 数据 库 相 对 性 准则 (The Principle of Database Relativity ) 。 


10.3 视图 检索 


本 章 已 经 简单 解释 了 如 何 把 一 个 视图 上 的 检索 操作 翻译 成 在 底层 的 基本 关系 变量 上 的 等 价 操 
作 。 现 在 ， 把 这 个 解释 变 得 更 形式 化 。 

首先 ， 每 一 个 给 定 的 关系 表达 式 都 可 以 被 看 作 是 一 个 关系 赋值 函数 〈 如 第 6 章 中 介绍 的 ) : 
对 表达 式 中 的 各 关系 变量 赋值 (表示 调用 此 函数 时 的 参数 ) 后 ， 表 达 式 产生 另 一 个 关系 。 现 在 
设 刀 是 一 个 数据 库 (目前 把 它 看 作 是 基本 关系 变量 的 集合 ) ，Y 是 定义 在 D 上 的 视图 ， 也 就 是 
说 ， 视 图 的 定义 表达 式 X 是 定义 在 D 上 的 一 个 函数 : 


v = XxX(D) 


设 RO 是 一 个 在 V 上 的 检索 操作 ; RO 也 是 一 个 关系 赋值 函数 ， 检 索 的 结果 是 : 


RO(V) = RO(X(D)) 


这 样 ， 检 索 的 结果 被 定义 为 等 于 将 外 应 用 于 D 上 的 结果 一 一 也 就 是 说 ， 物 化 一 个 关系 的 副 
本 ， 这 个 关系 就 是 视图 的 当前 值 一 一 然后 将 R 应 用 到 这 个 物化 〈materializing) 后 的 副本 上 。 使 
用 替代 过 程 显然 更 有 效率 ， 正 如 10. 1 节 中 所 讲 的 。 (现在 可 以 看 出 该 过 程 等 价 于 构成 一 个 函数 
C, 而 C 是 函数 X 和 R 的 组 合 R(X)， 然 后 将 C 施 加 于 D 上 。) 用 物化 而 不 是 用 替代 来 定义 视图 
检索 的 语义 很 方 使 ， 至 少 在 理论 上 如 此 ; 换 旬 话说 ， 如 果 替 代 产 生 的 结果 能 够 保证 与 使 用 物化 时 
产生 的 结果 相同 ( 当然 ， 确 实 如 此 )， 那 么 蔡 代 就 是 有 效 的 。 

经 过 上 述 讨 论 ， 你 应 该 已 经 对 这 些 内 容 有 了 基本 了 解 ， 了 解 它们 是 出 于 下 列 原因 : 

s 首先 ， 它 为 后 面 讨论 与 此 相似 的 〈 更 繁琐 的 ) 更 新 操作 打下 基础 。 


史 
Es 





少 是 对 于 
检索 操作 而 言 。 但 物化 不 适用 于 更 新 操作 ， 因 为 对 视图 的 更 新 实际 上 要 精确 地 转化 为 对 视图 
所 对 应 的 基本 关系 变量 的 更 新 ， 而 不 是 某 些 数据 的 临时 物化 的 副本 。 参 见 10. 4 节 。 

em 再 次 ， 虽 然 替 代 过 程 很 直观 而 且 在 理论 上 百分之百 有 效 ， 但 是 ， 在 一 些 SQL 产品 中 它 实 
际 上 无 法 工作 ! 也 就 是 说 ， 在 一 些 SQL 产品 中 ， 对 视图 的 检索 会 莫名 其 妙 地 失败 。 对 于 
SQL/92 以 前 的 SQL 标准 也 在 实际 中 不 起 作用 。 失 败 的 原因 是 这 些 产品 以 及 SQL 标准 的 
早期 版 本 ， 不 能 完全 支持 关系 封闭 属性 。 参 见 本 章 末 的 习题 10. 15。 


10.4 视图 更 新 


视图 是 关系 变量 ,因而 (可 以 像 所 有 的 变量 一 样 ) 通过 定义 进行 更 新 。 然 而 ， 在 历史 上 对 
视图 更 新 的 看 法 却 没 有 这 样 简单 。 视 图 的 更 新 闻 题 可 以 这 样 表达 : 对 于 给 定 视图 上 的 一 个 更 新 操 
作 ， 要 在 对 应 的 基本 关系 变量 上 进行 怎样 的 更 新 操作 ， 才 能 实现 视图 的 更 新 ? 更 准确 地 说 , 设 D 
是 数据 库 , V 是 D 上 的 视图 ， 也 就 是 说 ， 此 视图 的 定义 X 是 在 D 上 的 函数 : 


Vv = xX(D) 
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(如 10.3 节 所 示 )。 设 UO 是 一 个 在 V 上 的 更 新 操作 ; UO 可 以 被 看 作 是 一 个 能 改变 参数 的 操作 ， 
于 是 

UO (Vv)}) = UoO(X(D)),) 
在 视图 上 进行 更 新 这 一 问题 就 变 成 寻找 一 个 在 D 上 的 更 新 操作 UO : 

voO(xX(D)) = xX(vor(pDP)) 


因为 D 是 唯一 真正 存在 的 东西 (视图 是 虚拟 的 ) ， 因 此 更 新 无 法 直接 针对 视图 自身 实现 。 

在 进 -一 步 讨论 之 前 ， 有 必要 强调 一 下 ， 视 图 更 新 一 直 是 近年 来 研究 的 重点 ， 也 有 很 多 人 提出 
了 多 种 不 同 的 解决 方案 ， 参 见 [10.4]、[ 10.7 ~10.10] 和 [10.12]， 特别 是 Codd 针对 RM/V2 
的 提议 [6.2]。 本 章 介绍 在 【10.6，10. 11] 中 提 到 的 一 种 相对 较 新 的 方法 ， 它 不 如 上 述 提议 那 
么 典型 ， 但 它 的 一 些 思想 可 以 和 该 提议 中 某 些 最 好 的 方面 相 娘 美 。 它 的 优点 之 一 是 与 以 前 的 方法 
相 比 ， 可 以 支持 更 多 种 类 的 可 更 新 视图 ; 实际 上 ， 它 把 所 有 视图 都 看 做 潜在 可 更 新 的 ， 而 不 考虑 
完整 性 约束 。 

1. 修订 后 的 黄金 法 则 

回忆 前 一 章 学 过 的 黄金 法 则 : 

如 果 一 个 更 新 操作 将 使 一 个 变量 处 于 违反 自身 某 个 谓词 的 状态 ， 那 么 这 样 的 更 新 是 被 禁 
止 的 。 

或 者 : 

关系 变量 不 能 违反 自身 的 谓词 状态 。 

(这 一 章 中 ， 我 们 使 用 变量 谓词 这 个 术语 来 说 明 内 部 具体 的 谓词 ， 使 用 术语 谓词 说 明 具 体 的 
关系 变量 谓词 。 实 际 上 ， 我 们 在 本 书后 面 都 将 使 用 此 约定 ， 不 接受 与 其 相反 的 规定 。) 

当 刚 引入 这 条 法 则 时 ， 我 们 强调 它 适用 于 所 有 的 关系 变量 , 包括 基本 的 或 导出 的 。 也 就 是 
说 ， 视 图 也 有 谓词 (事实 上 ， 由 于 互 换 定律 的 原因 ， 它 必须 有 ) 。 为 了 正确 实现 视图 更 新 ， 系 统 
也 要 知道 这 些 谓词 是 什么 。 那 么 视图 的 谓词 是 什么 呢 ? 显然 ,我们 要 的 是 谓词 推理 规则 (predi- 
cate inference rule) 的 集合 ， 这 样 ， 如 果 知 道 对 某 个 关系 操作 的 输入 的 谓词 ， 我 们 就 能 从 此 操作 
中 推断 出 输出 的 谓词 。 有 了 这 样 的 一 些 规则 ， 就 能 通过 视图 直接 或 间接 参照 那个 基本 关系 变量 的 
谓词 来 推断 出 视图 的 谓词 ( 当然， 这 些 基 本 关系 变量 的 谓词 是 已 知 的 ; 它们 是 在 此 关系 变量 上 
定义 的 约束 一 一 即 候选 码 约束 一 一 的 逻辑 与 ) 。 

事实 上 很 容易 找到 一 组 这 样 的 规则 一 一 它们 遵从 关系 操作 符 的 定义 。 例 如 ， 如 果 A4 和 8 是 
同一 种 类 型 的 变量 ， 它 们 的 谓词 分 别 是 PA 和 PB。 如 果 视 图 C 定义 为 4 与 B 的 交集 ， 那 么 谓词 
PC 将 定义 为 (PA) AND (PB)。 考 虑 到 ; 

a 当 且 仅 当 元 组 ! 既 存在 于 4 又 存在 于 8 的 情况 下 ， 它 属于 C。 

m 如 果 元 组 :存在 于 4 中 , 那么 PA(1) 一 定 为 真 《“PA(1)” 是 P4 的 一 个 实例 ) 。 

= 否则 ， 如 果 上 存在 于 好 中 ， 则 PB(?) 为 真 。 

a 因此 PA(1) AND PB(1) 必 须 为 真 ， 谓词 PC 定义 为 PA 与 PB 的 交集 。 

我 们 接 下 来 将 考虑 其 他 的 关系 操作 符 。 

导出 的 关系 变量 会 自动 从 被 导出 的 关系 变量 中 “继承 ” 某 些 约束 ， 但 也 可 以 让 导出 的 关系 
变量 还 受 附加 约束 和 继承 约束 [3.3] 的 制约 。 因 此 ， 能 够 显 式 地 描述 约束 是 必要 的 (视图 的 候 
选 码 就 是 一 个 例子 ) ，Tutorial D 支持 这 一 可 能 性 。 为 了 简单 ， 下 文 忽略 这 一 可 能 性 。 

2. 关于 视图 更 新 机 制 

对 于 视图 更 新 ， 系 统 操作 有 很 多 要 遵守 的 重要 准则 (黄金 法 则 是 其 中 最 重要 的 一 个 但 并 不 
是 唯一 的 ) 。 涉 及 到 的 准则 如 下 : 

1) 视图 可 更 新 性 是 一 个 语义 学 的 问题 ， 而 与 语法 无 关 一 一 也 就 是 说 ， 视 图 能 否 更 新 不 能 依 
赖 于 视图 定义 的 语法 形式 。 比 如 ， 下 面 两 个 定义 在 语义 上 是 相同 的 : 
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VAR 
BERE STATUS > 25 OR CITY = 'Paris' 


V VI 

SV 
VAR V VIEW 

{ S WHERE STRTUS > 25 ) UNION ( S WHERE CITY = 'Paris' ) ;} 

显然 ， 这 两 个 视图 应 该 都 可 更 新 ， 或 者 都 不 可 更 新 〈 实 际 上 ， 它 们 是 可 更 新 的 ) 。 相 反 ， 
SQL 标准 和 当前 的 大 部 分 SQL 产品 采用 这 样 的 特殊 处 理 办 法 ， 即 第 一 个 视图 是 可 更 新 的 ， 但 第 
二 个 是 不 可 更 新 的 《参见 10.6 节 )。 

2) 下 一 个 问题 是 ， 对 于 视图 就 是 基本 关系 变量 这 一 特殊 情况 ， 视 图 更 新 机 制 必须 要 正确 处 
理 一 一 因为 如 果 视 图 V 定义 为 B UNION B (或 者 BINTERSECT B, 或 者 B WHERE TRUE, 或 其 
他 结果 等 于 B 的 表达 式 ) ， 那 么 B 和 V 在 语义 上 是 无 法 区 分 的 。 因 此 ， 适 用 于 V=B UNION 8 这 
一 视图 上 的 更 新 规则 ， 必 须要 与 在 B 上 直接 进行 更 新 时 产生 的 结果 相同 。 换 句 话 说 ， 这 一 节 的 
标题 虽然 是 “视图 更 新 "”， 但 不 如 “关系 变量 更 新 ”更 合适 ; 我 们 一 直 是 在 描述 一 种 对 于 所 有 关 
系 变量 都 正常 工作 的 理论 ， 而 不 仅仅 是 对 于 视图 。 

3) 更 新 法 则 必须 要 在 用 到 它 的 地 方 保持 对 称 。 比 如 ， 对 于 视图 了 =4 INTERSECT 8 的 DE- 
LETE 法 则 ， 不 应 该 产生 这 样 的 结果 : 在 4 中 这 个 元 组 被 删除 了 ， 而 在 8 中 却 没有 删除 。 虽 然 这 
种 单方 面 的 删除 也 会 产生 元 组 在 视图 上 被 删除 的 效果 ， 但是， 元 组 应 该 在 4 和 了 上 都 被 删除 。 
(换言之 ， 
常 工作 。 尤 其 是 ， 当 两 个 视图 分 别 被 定义 为 A INTERSECT B 和 B INTERSECT 4 时 ， 它 们 之 间 应 
没有 任何 逻辑 差别 。) 

4) 更 新 规则 要 考虑 所 有 生效 的 触发 过 程 ， 包 括 像 级 联 删除 这 样 的 参照 动作 。 

5) 为 简便 ， 不 妨 将 UPDATE 看 做 DELETE-INSERT 操作 序列 的 简写 形式 。 我 们 将 对 它 进行 
这 样 的 处 理 。 当 下 列 条 件 满足 时 ， 这 种 简写 方式 是 可 以 接受 的 : 

s 在 更 新 过 程 中 不 进行 关系 变量 谓词 的 检查 ; 也 就 是 说 ，UPDATE 的 扩展 形式 是 DELETE- 

INSERT- 检查 ， 而 不 是 DELETE- 检 查 -INSERT- 检 查 。 当 然 ， 原 因 是 DELETE 会 暂时 违反 
关系 变量 谓词 ， 但 整个 UPDATE 不 会 违反 ; 比如 ， 设 关系 变量 只 含有 10 个 元 组 ， 如 果 民 
的 关系 变量 谓词 要 求 尺 至少 包含 10 个 元 组 ， 考 虚 在 R 上 更 新 元 组 :会 产生 什么 样 的 结果 。 

m 触发 过 程 也 同样 不 能 在 更 新 过 程 中 被 实施 。( 实 际 上 它们 在 结束 时 才 实 施 ， 在 关系 变量 谓 

词 检 查 之 前 。) 

m 这 一 简写 形式 在 投影 视图 中 要 有 一 些 细小 的 调整 ( 见 这 一 节 的 后 一 部 分 ) 。 

6) 所 有 视图 上 的 更 新 操作 必须 通过 在 相对 应 的 关系 变量 上 实施 同类 的 更 新 操作 来 实现 。 也 
就 是 说 ， 插 人 映射 为 插入 ， 删 除 映射 为 删除 。 (根据 前 文 的 提示 ， 这 里 可 以 忽略 更 新 操作 。) 相 
反 ， 有 一 些 视图 (如 UNION 视图 ) 把 插入 映射 成 删除 。 还 有 就 是 在 一 个 基本 关系 变量 上 的 插入 
有 时 也 会 映射 成 删除 ! 得 到 这 一 结论 是 因为 基本 关系 变量 B 在 语义 上 等 于 UNION 视图 V=8B 
UNION 8。 在 其 他 类 型 的 视图 上 【〔 限 制 、 投 影 、 相 交 ， 等 等 ) 也 会 产生 相似 的 问题 。 在 基本 关 
系 变量 上 的 插入 可 能 实际 上 是 一 个 删除 ， 这 一 思想 显然 是 芒 雇 的 : 因为 我 们 的 出 发 点 是 INSERT 
映射 为 INSERT，DELETE 映射 为 DELETE。 

) 一 般 来 说 ， 当 更 新 规则 被 应 用 到 视图 V 时 ， 它 将 指定 在 V 所 映射 的 基本 关系 变量 上 的 操 
作 。 即 使 当 这 些 基 本 关系 变量 就 是 视图 自身 时 ， 这 些 规则 也 要 能 正确 工作 。 也 就 是 说 ， 这 些 规则 
要 能 递归 实施 。 当 然 ， 如 果 对 于 被 映射 的 基本 关系 变量 的 更 新 请 求 失败 ， 则 原 更 新 也 失败 ; 因 
此 ， 视 图 上 的 更 新 成 功 与 否 和 在 基本 关系 变量 上 的 更 新 一 样 。 

8) 这 些 规则 不 能 断定 数据 库 是 设计 良好 的 (〈 即 完全 规范 化 的 ， 参 见 第 12 章 和 第 13 章 ) 。 
但 如 果 数 据 库 不 是 规范 设计 的 ， 它 们 有 时 会 产生 奇异 的 结果 一 一 在 支持 规范 设计 上 ， 这 可 被 看 做 
一 个 额外 的 论据 。 下 一 小 节 中 会 给 出 这 种 “奇异 结果 ”的 例子 。 

9) 不 应 该 有 很 显然 的 原因 使 得 某 些 更 新 操作 人 允许 在 视图 上 进行 ， 而 其 他 的 却 不 行 (如 DE- 
LETE 可 以 而 INSERT 不 行 )。 

10) 在 一 定 的 范围 内 ，INSERT 和 DELETE 应 该 是 互 反 的 操作 。 

回忆 一 下 另 一 个 重要 的 观点 。 在 第 6 章 中 曾 说 过 ， 关 系 操作 (尤其 是 关系 更 新 ) 都 是 以 集 
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合 为 单位 的 ; 只 包含 一 个 元 组 的 集合 是 例外 。 些 外， 多 元 组 更 新 有 时 也 是 必要 的 (也 就 是 说 ， 
某 些 更 新 不 能 用 一 系列 的 单元 组 更 新 来 完成 ) 。 并 且 ， 这 一 观点 对 基本 关系 变量 和 视图 都 是 对 
的 。 出 于 简化 的 目的 ， 把 大 部 分 更 新 规则 以 单元 组 操作 的 形式 呈现 ， 但 我 们 要 始终 意识 到 单元 组 
操作 是 简化 了 的 形式 ， 有 时 甚至 是 过 分 简化 的 形式 。 

下 面 逐 个 考虑 关系 代数 中 的 操作 符 ， 从 并 、 交 、 差 开始 。 注 意 : 对 这 三 种 操作 ， 假 设 是 在 分 
别处 理 定义 表达 式 为 4 UNION B 或 4 INTERSECT B 或 4 MINUS B 的 视图 ， 其 中 4 和 B 是 关系 
表达 式 (也 就 是 说 ， 它 们 未 必 是 基本 关系 变量 )。A 和 B 所 指 代 的 关系 必须 是 同一 关系 类 型 。 相 
应 的 关系 变量 谓词 分 别 是 PA 和 PB。 

注意 : 之 后 讨论 的 一 些 规则 和 例子 可 能 产生 副作用 。 现 在 我 们 普遍 认为 副作用 是 不 受 欢 迎 
的 ; 但 是 ， 当 A 和 8 人 恰好 代表 同一 个 关系 变量 的 两 个 有 重 倒 的 子 集 时 ， 副 作用 是 不 可 避免 的 ， 
这 样 的 情况 常常 在 出 现在 UNION 、INTERSECTION 以 及 DIFFERENCE 视图 中 。 

3. 并 

下 面 是 A UNION 8 的 插入 规则 : 

m INSERT， 新 的 元 组 必须 满足 P4 或 PB， 或 同时 满足 PA 和 PB。 若 它 仅 满足 PA， 则 它 被 

插入 到 4 中 ， 注 意 这 种 插入 可 能 会 引起 也 被 插入 8 中 去 的 副作用 。 若 它 满足 PB， 则 被 插 
入 到 B 中 ， 除 非 由 于 上 一 种 情况 的 副作用 已 经 被 插入 B 中 。 

解释 : 新 插入 的 元 组 至 少 要 满足 PA 或 PB 中 的 一 个 ， 否 则 它 就 不 会 被 包含 在 A UNION 8 
中 一 一 也 就 是 ， 它 不 满足 4 UNION 中 上 的 关系 变量 谓词 PA 或 PB。( 再 次 假设 新 元 组 并 没有 在 4 
或 8 中 出 现 过 ， 否 则 就 是 企图 插入 一 个 已 有 的 元 组 。 有 时 我 们 的 假设 并 不 足够 严格 。) 假设 新 元 
组 被 插入 到 它 在 逻辑 上 属于 的 4 或 B (或 两 者 都 是 ) 。 

注意 : 这 一 规则 的 程序 处 理 方式 (插入 4， 然后 插入 B) 应 该 被 理解 为 是 因为 教学 的 目的 而 
被 简化 ， 这 并 不 暗示 DBMS 必须 是 按 这 一 执行 顺序 来 完成 INSERT 操作 的 。 实 际 上 ， 对 称 法 
则 一 一 前 一 小 节 的 第 3 点 法 则 一 一 也 暗示 了 这 一 层 意 思 ， 因 为 4 和 B 都 没有 相对 于 另 一 方 的 优 
先 权 。 在 下 述 的 规则 中 也 是 一 样 的 。 

示例 : 设 视图 UV 定义 如 下 


VAR UV VIEW 
( S WHERE STATUS > 25 ) UNION ( S WHERE CITY = 'Paris' ) ; 











图 10-2 显示 了 该 视图 的 一 个 可 能 的 值 ， 对 应 于 通常 的 样本 数据 值 。 


m 设 要 插入 的 元 组 是 (S6，Smith，50，Rome)。0 这 一 元 岳 
ps ? ”~ |S#| STATUST CITY 
组 满足 谓词 公式 S WHERE STATUS > 25， 而 不 满足 男 | 
Adams 30| Athens 


人 到 公式 S WHERE STATUS > 25 中 。 这 是 由 于 有 关 插 
入 的 限制 (参见 后 文 )。 结 果 是 它 被 插入 到 供应 商 基本 图 10-2 视图 UV (样本 值 ) 
关系 安 量 中 ， 这 样 ， 此 元 组 会 像 期 望 的 那样 出 现在 视 
匀 中 。 
m 设 要 插入 的 元 组 是 (S7，Jones，50，Paris)。 这 一 元 组 满足 谓词 公式 S WHERE STATUS 
> 25， 也 满足 另 一 个 谓词 公式 S WHERE CITY =' Paris 。 膛 辑 上 它 应 该 被 同时 捅 人 到 两 
个 视图 中 。 但 是 ， 插 入 到 其 中 任何 一 个 都 会 引起 同时 被 插 人 到 另 一 个 中 的 副作用 ， 这 时 ， 
无 需 再 显 式 地 执行 第 二 个 INSERT。 
现在 , 设 $4 和 5B 是 两 个 不 同 的 基本 关系 变量 。SA4 表示 STATUS > 25 的 供应 商 ，5B 表示 在 
Paris 的 供应 商 〈 见 图 10-3) ; 设 视图 UV 定义 为 54 UNION SB， 考 虑 前 面 讨 论 过 的 两 个 插 人 操 
作 。 插 入 元 组 ($6，Smith，50，Rome) 到 UV 中 会 使 它 被 插入 到 S4 中 ， 这 正 是 所 要 的 。 但 是 ， 
插入 元 组 (S7，Jones，50，Paris) 到 UV 中 会 使 它 被 同时 插入 到 这 两 个 关系 变量 中 ! 这 一 结果 
在 逻辑 上 是 正确 的 ， 虽然 它 有 悖 于 常规 (这 就 是 我 们 在 前 一 节 中 所 说 的 “奇异 结果 ”的 一 个 例 





”出 于 可 读 性 的 原因 ， 本 节 采 用 这 样 简单 的 符号 来 表示 元 组 。 
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子 )。 如 果 数 据 库 设 计 得 不 好 ， 就 会 产生 这 种 奇怪 的 结果 。 尤 其 是 ， 让 一 个 相同 的 元 组 出 现 (也 
就 是 满足 谓词 ) 在 两 个 不 同 的 关系 变量 中 ， 这 样 的 设计 不 好 。 在 第 13 章 13. 6 节 中 将 详细 讨论 这 
一 有 争议 的 情况 。 
下 面 讨 论 4 UNION 8 的 DELETE 规则 : 
s DELETE: 如 果 要 删除 的 元 组 在 4 中 出 现 ， 则 从 4 中 删除 (注意 这 一 删除 可 能 会 引起 同 
时 在 B 中 删除 的 副作用 ) 。 如 果 它 〈 还 ) 在 8B 中 出 现 ， 则 在 8 中 删除 。 


SA SB 

| s# | sSNAME | STATUS | cITY s#| SNAME| STATUS| CITY 
S3 | Blake 30 | Paris S2 | Jones 10 | Paris 
S5 | Adams 30 | Athens S3 | Blake 30| Paris 


图 10-3 基本 关系 变量 SA 和 SB (样本 值 ) 


这 一 规则 的 例子 将 被 留 作 练习 。 注 意 ， 删 除 4 或 8 中 的 一 个 元 组 可 能 会 引起 级 联 删除 或 其 
他 触发 过 程 。 
最 后 ， 是 UPDATE 规则 : 
s UPDATE: 更 新 后 的 元 组 必须 能 满足 PA 或 PB 或 同时 满足 两 者 。 如 果 要 被 更 新 的 元 组 在 
4 中 出 现 ， 它 会 被 从 4 中 删除 而 不 引发 触发 过 程 (如 级 联 删 除 等 ) ， 同 样 也 不 引起 对 4 的 
关系 变量 谓词 的 检查 。 注 意 这 一 删除 会 有 将 这 一 元 组 同时 从 8 中 删除 的 副作用 。 如 果 元 
组 (还 ) 是 在 B 中 出 现 , 它 将 被 从 B 中 删除 (同样 不 引发 触发 过 程 和 谓词 检查 ) 。 然 后 ， 
如 果 更 新 后 的 元 组 满足 PA4， 则 被 插入 到 4 中 (可 能 会 有 同时 插入 B 中 的 一 作用)。 最 后 ， 
如 果 更 新 后 的 元 组 满足 PB， 则 被 插入 到 8 中 ， 除 非 它 在 插入 到 4 时 已 被 插入 B 中 。 
这 一 更 新 规则 实质 上 是 由 DELETE 规则 和 INSERT 规则 合并 而 成 ， 除 了 在 DELETE 后 不 引 
发 触发 过 程 和 谓词 检查 (任何 与 UPDATE 有 关 的 触发 过 程 将 在 所 有 的 删除 和 插入 后、 谓词 检查 
之 前 执行 ) 。 
必须 指出 ， 这 种 处 理 UPDATE 的 方式 可 能 会 产生 这 样 一 种 后 果 : 一 个 元 组 从 一 个 关系 变量 
转移 到 另 一 个 中 。 以 图 10-3 中 的 数据 库 为 例 ， 将 元 组 (S5，Adams，30，Athens) 更 新 为 〈S5， 
Adams ，15 ，Paris) ， 会 使 旧 元 组 在 SA 中 被 删除 ， 新 元 组 被 插入 到 SB 中 。 
4. 交 
现在 讨论 4 INTERSECT 8 这 一 视图 的 更 新 规则 。 此 处 只 是 简单 叙述 这 些 规则 而 不 进行 深入 
讨论 (它们 遵循 与 UNION 视图 基本 相同 的 更 新 模式 ) ， 但 是 要 注意 ，4 INTERSECT 8 的 谓词 是 
(PA) AND (PB)。 它 的 各 种 情况 的 例子 将 被 留 作 练 习 。 
s INSERT: 新 的 元 组 必须 同时 满足 P4 和 PB。 如 果 它 原先 没有 在 4 中 出 现 ， 则 它 被 插入 到 
4 中 (注意 ,这 一 操作 的 副作用 可 能 是 它 同时 被 插 人 到 8 中 ); 如 果 它 原先 没有 (还 没 
有 ) 在 妃 中 出 现 ， 则 它 就 被 插 人 到 如 中 。 
as DELETE:， 要 删除 的 元 组 被 从 4 中 删除 。( 注意 ， 这 一 操作 的 副作用 可 能 是 将 它 同 时 在 B 
中 删除 。) 如 果 它 还 在 B 中 ， 再 从 B 中 删除 它 。 
me UPDATE : 被 更 新 后 的 元 组 必须 同时 满足 PA 和 PB。 当 元 组 被 从 4 中 删除 时 ， 它 不 引发 任 
何 触发 过 程 和 谓词 检查 (注意 ， 这 一 操作 的 副作用 可 能 是 将 它 同 时 在 8 中 删除 ); 如 果 它 还 
在 8 中 ， 则 再 从 B 中 删除 也 不 引发 任何 触发 过 程 和 谓词 检查 。 接 下 来 ， 更 新 后 的 新 元 组 如 果 
没有 在 4 中 出 现 ， 则 将 之 插入 到 4 中 ; 如 果 还 没有 在 B 中 出 现 ， 则 将 之 插入 到 8 中 。 
5. 差 
下 面 是 A MINUS 8B 的 更 新 规则 (关系 变量 谓词 是 (PA) AND NOT (PB) ): 
s INSERT， 新 元 组 满足 PA 而 不 满足 PB。 它 被 插入 到 4 中 。 
s DELETE: 元 组 被 从 4 中 删除 。 
s UPDATE: 更 新 后 的 元 组 满足 P4 而 不 满足 PR。 元 组 被 从 4 中 删除 而 不 引发 触发 过 程 和 
谓词 检查 ; 更 新 后 的 新 元 组 被 插入 到 4 中 。 
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6. 选择 

设 视图 Y 的 定义 表达 式 是 A WHERE p，4 的 谓词 是 P4， 则 Y 的 谓词 是 (P4) AND (p)。 
比如 ，S WHERE CITY = "London 的 谓词 是 (PS) AND (CITY = 'London ')，PS 是 供应 商 的 谓 
词 。 下 面 是 4 WHERE p 的 更 新 规则 : 

a JINSERT: 新 元 组 要 满足 PA 和 p， 它 被 插 和 人 到 4 中 。 

s DELETE: 元 组 被 从 4 中 删除 。 

m UPDATE: 更 新 后 的 元 组 必须 同时 满足 PA 和 PP。 旧 元 组 被 从 4 中 删除 而 不 引发 触发 过 程 

和 谓词 检查 ; 新 元 组 被 插入 到 4 中 。 
示例 : 设 视图 LS 定义 为 


VAR LS VIEW 
S WHERE CITY = London' ; 


图 10-4 给 出 了 此 视图 的 样本 值 。 


sm 在 LS 中 插入 元 组 ($6，Green，20，London) 的 请 求 会 
成 功 。 新 元 组 会 被 插入 到 5 中 ， 也 就 相当 二 被 插入 到 LS | | 
Siismith 20|London 
中 了 。 [Sl smith 20| London 


在 LS 中 插入 元 组 (Sl1，Green，20，London) 的 请 求 会 
失败 ， 因 为 它 违反 了 5 的 谓词 (因此 也 违反 了 LS) 一 一 图 104 视图 LS (样本 值 ) 
尤其 是 ， 它 违反 了 候选 码 |S#} 的 唯一 性 约束 。 

a 在 LS 中 插入 元 组 〈S6 ，Green，20 ，Athens) 的 请 求 将 失败 ， 因 为 它 违 反 了 约束 CITY = 
"London 。 

a 在 LS 中 删除 元 组 (S1，Smith，20，London) 的 请 求 会 成 功 。 元 组 被 从 5 中 删除 ， 因 此 
也 就 是 在 LS 中 被 删除 了 。 

s% 在 LS 中 更 新 元 组 (S1，Smith，20，London) 为 (S6，Green，20，London) 的 请 求 会 成 
功 。 而 更 新 元 组 (SIl，Smith，20，London) 为 (S2，Smith，20，London) 或 (Sl， 
Smith，20，Athens) 的 请 求 会 失败 。( 各 自 的 原因 是 什么 ?) 

7. 投影 

这 里 讨论 相关 的 谓词 。 设 关系 变量 4 (在 其 上 有 谓词 PA4〉 的 属性 可 分 为 两 个 不 相交 的 组 X 

和 Y。 将 XX 和 了 分 别 看 成 是 一 个 复合 属性 ， 考 察 4 在 X 上 的 投影 41X}。 设 (x) 是 这 一 投影 的 
一 个 元 组 ,很 显然 ， 这 一 投影 的 谓词 应 该 是 “在 了 的 域 上 存在 一 个 信 y， 使 元 组 (x，y) 满足 
PA”。 例如， 关系 变量 5 是 在 S#、SNAME 和 CITY 上 的 投影 ， 则 在 此 投影 中 出 现 的 每 一 个 元 组 
(s,， n, Cc) 都 应 存在 一 个 值 上 使 元 组 (s，n，t,，c) 满足 8 上 的 谓词 。 

下 面 是 在 4+X+ 上 的 更 新 规则 : 

m JINSERT: 设 要 插入 的 元 组 是 (x) ， 另 设 了 的 默认 值 是 y (如 果 不 存在 这 样 的 默认 值 就 会 
出 现 错误 。 也 就 是 说 如 果 了 不 允许 默认 )， 元 组 (x，y) (必须 满足 PA) 被 插入 到 A。 

注意 : 候选 码 属 性 通常 没有 默认 值 (参见 19 章 ) 。 因 此 ， 如 果 有 一 个 投影 不 包含 所 有 的 候 

选 码 ， 它 就 不 允许 被 插入 。 
s DELETE: 当 从 4{X| 中 删除 一 个 元 组 时 ， 所 有 在 4 中 的 有 这 个 X 值 的 元 组 都 被 删除 。 
注意 : 在 实际 中 , XX 至 少 应 包含 一 个 4 上 的 候选 码 ， 这 样 在 41X+ 上 删除 一 个 元 组 时 ,在 4 
也 只 有 一 个 相应 的 元 组 被 删除 。 但 是 ， 并 没有 什么 逻辑 上 的 原因 要 求 必 须 这 样 做 。 同 理 也 适用 
于 UPDATE 一 一 参见 下 文 。 
ss UPDATE: 设 要 更 新 的 元 组 是 (x) ， 更 新 后 的 元 组 是 (x')。 设 a 是 4 中 在 X 上 有 值 x 的 
一 个 元 组 ，a 中 在 Y 上 的 值 是 y。 所 有 这 样 的 元 组 都 被 删除 而 不 引发 触发 过 程 和 谓词 检查 。 
然后 ， 对 每 一 个 值 y 都 有 一 个 元 组 (x'"，y) ( 必 满 足 PA) 被 插入 到 4 中 。 

注意 : 在 “关于 视图 更 新 机 制 ” 小 节 的 第 5 条 原则 中 曾 说 过 ， 在 投影 问题 的 更 新 上 要 有 一 

点 调整 。 应 该 注意 到 ， 在 更 新 规则 中 的 插 人 步骤 里 ， 搬 人 的 元 组 是 被 重新 写 人 原来 的 了 值 一 一 而 
不 是 被 写 入 可 用 的 默认 值 ， 但 是 单独 的 插入 会 是 这 样 。 
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示例 ; 设 视图 SC 定义 为 


SC { S#, CITY } 


图 10-5 显示 了 视图 的 样本 值 。 

s 在 SC 中 插入 元 组 (S6，Athens) 的 请 求 会 成 功 ， 其 结果 是 在 8 中 
桶 入 (S6, n，{，London), nn 和 + 上 分别 是 在 SNAME 和 STATUS 上 FTondon 
的 默认 值 。 Paris 





s 在 SC 上 插入 元 组 (S1，Athens) 的 请 求 会 失败 ， 因 为 它 违反 了 5 Paras 
上 的 谓词 (因此 也 违反 了 SC 上 的 谓词 ) 一 一 尤其 是 ， 它 违反 了 候 thens 
选 码 | S#| 的 唯一 人 性 约束 。 图 10-5 视图 SC 

a 在 SC 上 删除 元 组 〈S1，London) 的 请 求 成 功 ， 此 元 组 从 5 中 被 删 (样本 值 ) 
除 。 


a 在 SC 中 将 元 组 (Si1，London) 更 新 为 《Si1，Athens) 的 请 求 会 成 功 ; 结果 是 将 5 中 的 元 
组 (SI1，Smith，20，London) 更 新 为 (S1，Smith，20，Athens) 一 一 而 不 是 〈S1，m， 
t，Athens) ， 其 中 和 + 为 使 用 的 默认 值 。 

me 将 SC 中 的 元 组 〈S1，London) 更 新 为 《S2，London) 的 请 求 会 失败 。( 为 什么 ?) 

对 于 投影 中 不 包含 它 所 映射 的 关系 变量 上 的 候选 码 的 情况 一 一 比如 ，5S 在 STATUS 和 

CITYY 中 的 投影 一 一 留 作 练习 。 
8. 扩展 
设 视图 V 的 定义 表达 式 为 : 


EXTEND A ADD exp AS Xx 

(如 前 文 PA 是 A 的 谓词 )。V 的 谓词 PE 为 : 

PA l(a) ANDe.X= exp (aa ) 

其 中 , e。 是 V 中 的 一 个 元 组 ,a 是 当 e 的 XX 扩展 部 分 被 移 去 后 剩 下 的 元 组 (不 太 严 格 地 ， 可 
以 说 a 是 e 在 属性 集 4 上 的 投影 )。 用 自然 语言 说 就 是 : 


每 一 个 扩展 后 的 元 组 e 是 : (1) 通过 投影 从 e 中 去 掉 六 部 分 而 得 到 的 元 组 a 满足 P4; 
(2) 在 X 部 分 上 的 值 等 于 在 a 上 执行 exp 表达 式 后 的 结果 。 


下 面 是 更 新 规则 : 
ss INSERT: 设 被 插入 的 元 组 是 e; e 必须 满足 PE。 通 过 投影 去 掉头 部 分 的 元 组 a 被 插入 到 
A 中 。 


s DELETE: 设 要 删除 的 元 组 是 e; 通过 投影 去 掉 X 部 分 的 元 组 a 被 从 4 中 删除 。 

m UPDATE: 设 更 新 前 的 元 组 是 e。， 更 新 后 的 元 组 是 ; e 必须 满足 PE。e 通过 投影 去 掉 X 
部 分 的 元 组 a 被 从 4 中 删除 而 不 引发 触发 过 程 和 谓词 检查 ，e 通过 从 投影 去 掉 X 部 分 的 元 
组 a 被 插入 到 4 中 。 

示例 : 设 视图 VPX 定义 为 


EXTEND P ADD ( WEIGHT * 454 ) AS GMWT 


图 10-6 显示 了 这 一 视图 的 样本 值 。 
m 插入 元 组 〔(P7，Cog，Red，12，Paris， ex coror werom or om 


5448) 的 请 求 会 成 功 ， 结 果 是 在 关系 变 
量 P 中 桶 人 元 组 (P7，Cog，Red，12， 





Paris ) 。 
@ 插 人 元 组 (P7，Cog，Red，12 ，Paris ， 
5449) 的 请 求 会 失败 。( 为 什么 ?) 图 10-6 视图 VPX (样本 值 ) 


插入 元 组 (P1 ，Cog，Red，12 ，Paris， 
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5448) 的 请 求 会 失败 。( 为 什么 ?) 

m 删除 元 组 Pl 的 请 求 会 成 功 ， 其 结果 是 从 关系 变量 P 中 删除 元 组 P1 。 

se 将 Pl 元 组 更 新 为 (P1 ，Nut，Red，10，Paris，4540) 的 请 求 会 成 功 ， 其 结果 是 更 新 P 中 

的 元 组 (P1，Nut，Red，12 ，London) 为 (Pl, Nut, Red, 10，Paris)。 

ms 将 P1 元 组 更 新 为 P2 (其 他 值 不 变 ) 或 使 GMWT 值 不 是 WEIGHT 值 的 454 倍 的 更 新 请 求 

会 失败 。( 各 自 的 原因 是 什么 ?) 

9. 连接 

以 前 讲 到 的 大 部 分 更 新 处 理 一 一 包括 本 书 的 前 5 版 和 本 书 作者 的 其 他 著作 一 一 认为 给 定 连接 
的 可 更 新 性 或 不 可 更 新 性 ， 依 束 于 ( 至少 部 分 依赖 于 ) 这 个 连接 的 类 型 是 一 对 一 的 、 一 对 多 的 
还 是 多 对 多 的 。 和 以 前 的 方式 不 同 ， 现 在 认为 连接 总 是 可 以 更 新 的 。 而 且 ， 这 三 种 连接 的 规则 相 
同 ， 并 且 都 很 直接 。 这 一 结果 初 看 上 去 虽然 有 些 令 人 吃惊， 但 确实 有 道理 ， 是 由 于 通过 黄金 法 则 
对 这 一 问题 进行 考察 而 得 出 了 这 个 结论 。 下 面 对 它 进行 解释 。 

广义 上 说 ， 提 供 视 图 支持 的 目的 是 为 了 使 视图 看 起 来 尽 可 能 像 基 本 关系 变量 ， 这 一 日 标 是 值 
得 赞赏 的 。 但 是 : 

a 通常 (暗含 着 ) 假设 “对 关系 变量 中 一 个 元 组 的 更 新 与 其 他 元 组 是 无 关 的 ”是 可 能 的 。 

m 但 是 ， 后 来 又 发 现 对 关系 变量 中 一 个 元 组 的 更 新 与 其 他 元 组 无 关 并 不 总 是 可 以 做 到 的 。 

比如 ，Codd 在 [12.2] 中 说 明了 在 某 个 特定 的 连接 中 仅 删 除 一 个 元 组 是 不 可 能 的 ， 因 为 这 样 
结果 会 使 一 个 关系 “不 再 是 任意 两 个 关系 的 连接 ” (结果 不 可 能 再 满足 视图 的 谓词 ) 。 而 且 历 史上 
视图 更 新 的 方法 一 直 是 简单 地 拒绝 请 求 ， 因 为 它们 不 可 能 被 完全 看 做 基本 关系 变量 上 的 更 新 。 

现在 的 方法 很 不 相同 。 确 切 地 说 ， 我 们 发 现 即 使 在 一 个 基本 关系 变量 中 ， 也 不 可 能 仅 更 新 一 
个 元 组 而 与 其 他 的 元 组 无 关 。 因 此 ， 就 接受 (那些 在 历史 上 ) 一 直 被 拒绝 的 视图 更 新 操作 ， 把 
它们 解释 为 用 逻辑 上 显然 正确 的 方式 来 对 其 所 映射 的 关系 变量 上 的 更 新 ; 接受 这 些 更 新 ， 而 且 承 
认 这 些 在 视图 上 的 更 新 可 能 会 产生 副作用 一 一 但 是 ， 为 了 避免 违反 视图 上 的 谓词 ， 副 作用 可 能 是 
必然 的 。 

现在 开始 讨论 细节 。 下 面 ， 先 定义 几 个 术语 ， 然 后 陈述 连接 视图 的 更 新 规则 ， 最 后 考虑 这 些 
规则 对 三 种 不 同 的 情况 (一 对 一 、 一 对 多 、 多 对 多 ) 分 别 意 味 着 什么 。 

考查 连接 V=4 JOIN 8 (第 7 章 7.4 节 )， 其 中 ,4、B 和 J 分 别 包 括 属 性 {X,Y} 、{Y, Z| 
和 |X, Y,，Z|。 设 4 和 8B 的 谓词 是 PA 和 PB， 则 J 的 谓词 PJ 是 


PA(a)ANDPB(b) 


对 于 此 连接 中 指定 的 元 组 j, a 是 7 中 属于 4 的 部 分 ( 即 通 过 投影 除去 Z 部 分 后 得 到 的 元 
组 ), b 是 j 中 属于 8 的 部 分 ( 即 通 过 投影 除去 X 部 分 后 得 到 的 元 组 )。 换 名 话 说 ， 连 接 中 的 每 一 
个 元 组 ，4 部 分 满足 Ph4，B 部 分 满足 PB。 比 如 ,对 于 关系 变量 $ 和 SP 在 S# 上 的 连接 有 如 下 谓 
词 : 
对 于 连接 中 的 每 一 个 元 组 (*，n，!，c，p，4) ， 有 元 组 (s, n,t, c) 满足 S 上 的 谓词 ， 
元 组 (s, p，9) 满足 SP 上 的 谓词 。 

下 面 是 具体 的 更 新 规则 : 

m _ INSERT: 新 元 组 j 必须 满足 PJ。 如 果 j 中 4 部 分 没有 在 4 中 出 现 ， 则 将 之 插入 到 4 中 。? 
如 果 j 中 8B 部 分 没有 在 B 中 出 现 ， 则 将 之 插入 到 B8 中 。 

as DELETE: 被 删除 元 组 的 4 部 分 从 4 中 删除 ，B 部 分 从 B 中 删除 。 

ea UPDATE: 被 更 新 后 的 元 组 必须 满足 PJ。 原 元 组 4 部 分 被 从 4 中 删除 ， 不 引发 触发 过 程 

和 谓词 检查 ; 原 元 组 B 部 分 被 从 B 中 删除 ， 也 不 引发 触发 过 程 和 谓词 检查 。 然 后 ， 如 果 





注意 , 这 ~- INSERT 可 能 会 有 将 B 部 分 插 人 到 B 中 的 副作用 ， 这 和 前 面 讨 论 的 UNION 、DIFFERENCE 和 IN- 
TERSECTION 视图 一 样 。 相 似 的 结论 也 适用 于 DELETE 和 UPDATE 规则 ; 为 了 简化 ， 不 必 详 细 说 明 每 一 情况 下 
的 各 种 可 能 性 。 
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更 新 后 新 元 组 的 4 部 分 没有 在 4 中 出 现 ， 则 将 之 插入 到 4 中 ; 如 果 新 元 组 的 B 部 分 没有 
在 8 中 出 现 ， 则 将 之 插入 到 B 中 。 

下 面 考察 这 些 规则 对 三 种 不 同情 况 下 的 含义 。 

第 一 种 情况 (一 对 一 } : 首先 ， 注意 术语 “一 对 一 ”， 更 准确 地 说 应 该 是 “(一 -或 零 ) 对 
(一 或 零 )”。 也 就 是 说 ， 有 完整 性 约束 可 以 保证 对 于 4 中 的 每 一 个 元 组 在 B 中 至 多 有 一 -个 元 组 与 
之 匹配 ， 反 之 亦 然 一 一 这 上 暗示 着 在 连接 上 的 属性 集 Y 是 4 和 8 的 超 码 。 

示例 ，: 

m 第 一 个 例子 ， 可 以 考虑 前 述 规 则 在 这 样 一 个 连接 上 的 结果 : 将 供应 商 关 系 变革 5 ( 仅 有 ) 
在 供应 商 编号 上 与 自身 进行 连接 。 

m 第 二 个 例子 ， 设 存在 含有 属性 S# 和 REST 的 基本 关系 变量 SR，S# 用 来 标识 供应 商 ，REST 
用 来 标识 此 供应 商 最 喜欢 的 餐馆 。 假 设 在 $ 中 的 供应 商 并 不 都 在 SR 中 出 现 。 考 虑 连接 更 
新 规则 在 $ JOIN SR 上 的 结果 。 如 果 某 些 供 应 商 在 SR 中 出 现 而 不 在 $ 中 出 现 ， 则 会 有 什 
么 不 同 ? 

第 二 种 情况 (一 对 多 ) : 术语 “一 对 多 "， 准 确 地 说 应 该 是 “ ( 零 或 一 ) 对 ( 零 或 更 多 )"。 
也 就 是 说 ， 存 在 完整 性 约束 ， 它 保证 对 于 B 中 的 每 一 个 元 组 在 A 中 至 多 有 一 个 元 组 与 之 匹配 。 
它 表 示 ， 连 接 上 的 属性 集 上 存在 一 个 属性 集 六， 这 个 天 是 4 的 一 个 候选 码 ， 也 是 匹配 到 有 上 
的 一 个 外 码 。 注 意 : 如 果真 是 这 种 情况 ， 就 可 以 将 “ 零 或 一 ” 换 为 “正好 一 个 

示例 : 设 视 图 SSP 被 定义 为 ， 

(这 显然 是 一 个 “外 码 - 候选 码 匹配 ”连接 ) 。 图 10-7 给 出 了 样本 值 : 


S JOIN SP 


am 在 SSP 中 插入 元 组 (S4，Ciark，20，Lon- 
don，P6 ，100) 的 请 求 会 成 功 ， 其 结果 是 在 
SP 中 插入 元 组 (S4，P6，100) (也 就 相当 
于 在 视图 中 插入 了 元 组 )。 
a 在 SSP 中 插入 元 组 (S$S5，Adams，30，Ath- 
ens，P6，100) 的 请 求 会 成 功 ， 其 结果 是 在 
SP 中 插入 元 组 (S5，P6，100) (也 就 相当 
于 在 视图 中 插入 了 元 组 )。 
s 在 SSP 中 插入 元 组 (S6，Green，20，Lon- 图 10-7 视图 SSP (样本 值 ) 
don，P6，100) 的 请 求 会 成 功 ， 其 结果 是 在 
关系 变量 S 中 插入 元 组 (S6，Green，20，London) ， 在 关系 变量 SP 中 插入 元 组 ( 56， 
P6，100) (也 就 相当 于 在 视图 中 插入 了 元 组 ) 。 
注意 : 假设 可 能 会 出 现 这 样 一 种 情况 ， 在 SP 中 存在 一 个 元 组 ， 而 在 S 中 没有 相对 应 的 元 
组 。 再 进一步 假设 在 SP 中 已 经 包含 了 几 个 供应 商号 为 $6 的 元 组 ， 但 是 它们 的 零件 号 都 不 是 Pl。 
则 刚 讨论 过 的 INSERT 会 在 视图 中 插入 一 些 额 外 的 元 组 一 一 也 就 是 说 ,元 组 (S6，Green,，20， 
London) 和 在 SP 中 已 有 的 供应 商号 为 56 的 元 组 的 连接 。 
m 在 SSP 中 插入 元 组 (S4，Clark，20，Athens，P6，100〉 的 请 求 会 失败 。( 为什么?) 
sa 在 SSP 中 插入 元 组 (S1，Smith，20，London，P1，400) 的 请 求 会 失败 。( 为 什么 ?) 
m 在 SSP 中 删除 元 组 (S3，Blake，30，Paris，P2，200) 的 请 求 会 成 功 ， 其 结果 是 从 S 中 删 
除 元 组 (S3，Blake，30，Paris) ， 从 SP 中 删除 元 组 (S3，P2，200)。 
m 从 SSP 中 删除 元 组 〈S1 ，Smith ，20，London，P1 ，300) 的 请 求 会 成 功 〈 见 下 面 的 注意 ) 
其 结果 是 从 S 中 删除 元 组 (SL，Smith，20，London ) ， 从 SP 中 删除 元 组 (SI1,，P1， 
300) 。 
注意 ; 这 一 DELETE 请 求 的 结果 依赖 于 从 发 货 量 到 供应 商 的 外 码 删除 规则 。 如 果 这 一 规则 
指定 为 RESTRICT， 则 所 有 的 操作 失败 。 如 果 指 定 为 CASCADE ， 它 就 会 产生 对 供应 商 S1 删除 所 
有 其 他 的 SP 元 组 的 副作用 (因此 删除 了 所 有 相关 的 SSP 元 组 ) 。 


ES ET 
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直 将 SSP 元 组 (S1，Smih，20，London，P1，300) 更 新 为 (S1，Smith，20，London， 
Pl ，400) 的 请 求 会 成 功 ， 其 结果 是 更 新 SP 中 元 组 (S1，P1，300) 为 (S1，P1，400 ) 。 
s 将 SSP 元 组 (S1，Smith，20，London，P1 ，300) 更 新 为 (S1，Smith ，20，Athens，P1 ， 
400) 的 请 求 会 成 功 ， 其 结果 是 更 新 $ 中 的 元 组 (S1，Smith，20，London ) 为 (S1， 
Smith，20，Athens) ， 更 新 SP 中 的 元 组 〔(S1，P1，300) 为 (S1，P1，400) 。 
m 更新 SSP 中 元 组 (S1，Smith，20，London ，P1，300) 为 (S$6，Snmith，20，London ，P1 ， 
300) 的 请 求 会 成 功 (参见 下 面 的 注意 ) 结果 是 更 新 S$ 中 元 组 (S1，Smih，20，London ) 
为 (S6，Smith，20，London) ， 更 新 SP 中 元 组 (S1，P1，300) 为 ($S6，P1，300) 。 
注意 : 这 一 UPDATE 请 求 的 结果 依赖 于 从 发 货 量 到 供应 商 的 外 码 更 新 规则 。 细 节 留 作 练习 。 
第 三 种 情况 (多 对 多 ) : 术语 “多 对 多 ”"， 更 准确 地 说 应 该 是 “( 零 或 更 多 ) 对 ( 零 或 更 
多 )”。 换 句 话 说， 不 存在 有 效 的 完整 性 约束 来 保证 处 于 与 “第 一 种 情况 ”和 “第 二 种 情况 ” 相 
间 的 状态 。 
示例 : 设 存在 定义 如 下 的 视图 


S JOIN P 


(S 和 P 在 CITY 上 连接 一 一 多 对 多 的 连接 ) 。 在 图 10-8 中 给 出 样本 值 。 
me 插入 元 组 (S7，Bruce，15，Oslo， 
p8，Wheel，White，25 ) 的 请 求 eevee ermros lemmee pws loron vero 
会 成 功 ， 其 结果 是 在 S 中 插入 元 
组 (S7，Bruce, 15，Oslo), 在 P 
中 插入 元 组 (P8，Wheel，white， 
25，Oslo) (相当 于 在 视图 中 插入 
了 指定 的 元 组 ) 。 

插入 元 组 (S1，Smith，20，Lon- 20|London 
don，P7，Washer，Red，5) 的 请 
求 会 成 功 ， 其 结果 是 在 P 中 插入 图 10-8 S 和 P 在 CITY 上 的 连接 

元 组 (P7 ，Washer，Red，5，London ) 一 一 这 相当 于 在 视图 中 插入 了 两 个 元 组 ， 指 定 的 
元 组 (S1 ，Smith，20，Londoa，P7 ，Washer，Red，5) 和 和 另 一 个 元 组 (S4，Clark，20， 
London, P7, Washer, Red, 5)。 

a 搬入 元 组 (S$S6，Green，20，London，P7，Washer，Red，5) 的 请 求 会 成 功 ， 结 果 是 在 S 
中 插入 元 组 (S6，Green，20，London) ， 在 P 中 插入 元 组 (P7 ，Washer，Red，5，Lon- 
don) (从 而 在 视图 中 插入 了 6 个 元 组 )。 

a 删除 元 组 (S1，Smith，20，London，P1，Nut，Red，12) 的 请 求 会 成 功 ， 结 果 是 从 S 中 
删除 了 元 组 (Sl1，Smith，20，London) ， 从 P 中 删除 元 组 (Pl1，Nut，Red，12，London) 
(从 而 在 视图 中 删除 了 4 个 元 组 ) 。 

更 多 的 例子 被 留 作 练习 。 

10. 其 他 操作 符 

最 后 ， 简 要 介绍 一 下 关系 代数 中 的 其 他 操作 符 。 我 们 关注 一 下 连接 : 半 连 接 、 半 差 和 除 ， 它 

们 不 是 原 语 操作 ， 因 此 它们 的 规则 可 以 由 定义 这 些 操作 符 的 操作 规则 导出 。 其 他 的 也 一 样 : 

s 重 命名 : 不 用 详细 讨论 。 

se 笛 卡 尔 积 ， 如 在 7.4 节 提 到 的 ， 笛 卡尔 积 是 自然 连接 (如 果 4 和 B 没 有 相同 的 属性 ，A 
JOIN 8 就 退化 为 4 TIMES 8) 的 特例 ， 因 此 ，A TIMES B 的 规则 就 是 A JOIN B (也 是 4 
INTERSECT 8) 的 一 个 特例 。 

a 合计 : 合计 也 不 是 原 语 一 一 它 是 由 扩展 (extend) 定义 而 来 ， 因 此 它 的 更 新 规则 也 可 以 由 
扩展 的 更 新 规则 导出 来 。 注 意 : 在 实际 中 ， 大 部 分 SUMMARIZE 视图 上 的 UPDATE 操作 
都 会 失败 。 不 过 ， 这 些 失 败 不 是 因为 这 些 视 图 因 继承 而 来 的 不 可 更 新 性 ， 而 是 因为 这 些 更 
新 与 完整 性 约束 的 冲突 。 比 如 ， 设 视图 定义 为 : 
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.0 
.0 
.0 
.0 
.0 
.0 
.0 
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.0 
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SUMMARIZE SP BY { S# } ADD SUM ( QTY ) AS TOTQTY 


对 于 删除 供应 商 S1 的 元 组 的 请 求 会 成 功 ; 但 是 更 新 元 组 (S4，900) 为 (S4，800) 的 请 
求 会 失败 。 因 为 它 违 反 了 约束 “TOTQTY 值 必须 等 于 单个 QTY 值 的 和 ”; 插入 元 组 (S5， 
0) 的 请 求 会 失败 ,但 原因 与 上 一 个 不 同 。( 为 什么 ?) 

a 分 组 与 解 组 : 与 “合计 ”相似 [3.3]。 

ss Tclose: 也 和 上 面 的 有 些 相似 。 


10.5 快照 


本 节 将 讨论 快照 [10. 1] 。 快 照 与 视图 有 点 相似 ， 但 又 有 所 区 别 。 与 视图 一 样 ， 快 照 是 导出 
的 关系 变量 ; 但 与 视图 不 同 的 是 ， 它 们 是 真正 的 关系 变量 ， 而 不 是 虚拟 的 一 一 也 就 是 说 ， 快 照 不 
是 通过 在 其 他 关系 变量 上 的 定义 来 表示 自身 ， 而 是 ( 至 少 在 理论 上 是 ) 通过 它们 各 自 的 物化 的 
数据 备份 。 比 如 : 

VAR P2SC SNAPSHOT 


( { S JOIN SP ) WHERE P# = P# ('P2') ) { S#, CITY } 
REFRESH EVERY DAY ; 


定义 一 个 快照 就 像 是 执行 一 个 查询 ， 但 不 同 的 是 : 

a) 查询 的 结果 是 以 一 个 特定 的 名 字 保 存在 数据 库 中 〈 本 例 中 是 P2SC) ， 它 是 只 读 的 关系 变 

(只 读 ， 但 是 会 被 定期 刷新 ， 见 b) 。 

b) 快照 被 定期 刷新 〈 比如 每 天 ) 
果 成 为 快照 的 新 值 。 

这 样 ， 快 照 P2SC 就 会 和 24 小 时 前 一 样 表示 相关 的 数据 。( 它 的 谓词 是 什么 ?) 

快照 的 意义 在 于 ， 很 多 应 用 (甚至 可 能 绝 大 部 分 ) 可 能 容忍 ， 或 是 需要 与 某 个 确切 时 
间 相 近 的 数据 就 可 以 了 。 报 表 和 会 计 就 是 这 类 应 用 ; 这 类 应 用 的 典型 要 求 是 数据 被 冻结 在 
某 一 适当 的 时 刻 ( 比如 进行 会 计 统 计 的 一 段 时 期 )， 快 照 可 以 使 这 样 的 数据 冻结 而 又 不 影响 
其 他 事务 在 这 些 数据 上 的 更 新 操作 (在 真实 数据 上 )。 相 似 地 ， 它 可 以 为 一 个 查询 的 大 量 数 
据 或 一 个 只 读 的 应 用 服务 ， 而 不 封锁 数据 库 ， 这 是 非常 有 用 的 。 注 意 : 在 分 布 式 数据 库 或 
决策 支持 环境 中 (分 别 参见 第 21 章 和 22 章 ) 这 一 想法 非常 有 吸引 力 。 可 以 说 快照 是 “ 受 
控 完 余 ”(controlled redundancy) 的 一 种 特殊 情况 ( 见 第 1 章 ), “快照 刷新 ”就 是 相应 的 
更 新 过 程 (也 见 第 1 章 )。 

一 般 来 说 ， 快 照 定义 的 语法 如 下 : 

VAR <relvar name> SNAPSHOT <relation exp> 


<candidate key def list> 
REFRESH EVERY <now and then> ; 





也 就 是 ， 它 当前 的 值 被 丢掉 ， 重 新 执行 查询 ， 新 的 结 


<now and then > 应 该 是 “月 、 周 、 天 、 小 时 或 是 分钟 ,还 可 以 是 周一 、 周 末 等 ”( 特 别 
地 ， 用 REFRESH [ ON] EVERY UPDATE 可 以 保持 快照 始终 与 它 所 导出 的 关系 变量 同步 )。 下 面 
是 删除 快照 的 语法 : 


DROP VAR <relvar name> } 


显然 ， < refvar name > 是 用 来 指明 快照 的 。 注 意 : 假设 当 一 个 快照 定义 被 其 他 关系 变量 定义 
所 引用 时 ， 对 这 个 快照 的 删除 请 求 会 失败 。 相 应 地 ， 可 以 扩展 快照 定义 使 之 包括 “RESTRICT” 
或 “CASCADE” 选 项 。 这 里 不 再 深入 讨论 后 一 个 可 能 性 了 。 

术语 的 注释 ; 事实 上 ， 完 成 此 书 的 时 候 ， 快 照 被 认为 是 物化 视图 ” (参见 第 22 章 的 参考 文献 
一 节 而 非 快 照 。) 但 此 术语 很 不 合适 ， 在 笔者 看 来 也 是 应 该 坚决 更 正 的。 快照 并 不 是 视图 ， 视 图 





念 一 些 作者 (不 是 所 有 的 作者 ) 认为 物化 视图 就 是 经 常 更 新 的 视图 即 每 天 进行 更 新 操作 )。 
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不 是 物化 的 ， 至 少 具有 模型 的 概念 。 (它们 是 否 被 物化 取决 于 实施 的 过 程 ， 而 不 是 模型 本 身 。) 
换 句 话说 ， 物 化 视图 相对 于 模型 而 言 是 一 个 完全 相反 的 概念 ， 物 化 视图 是 一 个 普遍 存 存 的 概念 ， 
以 至 于 视图 的 概念 通常 被 认为 是 物化 视图 。 因 此 ， 当 提 及 原始 的 视图 概念 的 时 候 我 们 没有 更 加 合 
适 的 术语 。 当 我 们 使 用 术语 视图 的 时 候 ， 也 许 经 常会 被 误解 。 本 书 中 将 不 会 使 用 物化 视图 这 个 概 
念 (除非 引用 它 文 ) ， 对 于 快照 概念 尚 竺 商检， 我 们 将 使 用 视图 最 原始 的 概念 。 


10.6 SQL 对 视图 的 支持 


本 节 总 结 一 下 SQL 对 视图 的 支持 。( 在 写作 本 书 时 ，SQL 还 不 支持 快照 。 首先 ， 创 建 视图 
的 语法 是 (出 于 简短 性 的 考虑 ， 例 如 可 以 将 视图 定义 为 某 种 结构 化 类 型 ， 我 们 这 里 忽略 了 选项 
和 方法 的 变化 ) : 


CREATE VIEW <view name> AS <table exp> 
[ WITH [ <qualifier> } CHECK OPTION ] ; 


解释 ; 

1) <table exp > 是 视图 定义 表达 式 。 

2) 如 果 指 明了 WITH CHECK OPTION， 则 它 表示 ， 在 此 视图 上 的 INSERT 或 DELETE 若 违 
反 了 任何 视图 定义 表达 式 所 荀 含 的 完整 性 约束 ， 就 会 被 拒绝 。 注 意 ， 只 有 当 WITH CHECK OP- 
TION 被 指明 时 ， 这 样 的 操作 才 会 失败 一 一 也 就 是 说 ， 在 默认 情况 下 它们 不 会 失败 。 在 10.4 节 
中 ， 我 们 把 这 一 行为 看 作 是 逻辑 上 不 正确 的 ; 因此 强烈 建议 在 实际 中 WITH CHECK OPTION 总 
是 被 指明 (参见 [10.5]) 。” 

3) <gqualifier > 可 以 是 CASCADED 或 LOCAL， 并 且 CASCADED 是 默认 值 (也 是 唯一 合理 
的 选项 ， 这 一 点 在 参考 文献 [4. 20] 中 进行 了 详细 论述 ; 这 里 也 不 再 深入 讨论 LOCAL ) 。 

以 下 是 一 些 10. 1 节 中 的 SQL 视图 定义 : 

1) CREATE VIEW GOOD SUPPLIER 

AS SELECT S.S#, S.STATUS, S.CITY 
FROM S 


WHERE  S.STATUS > 15 
WITH CHECK OPTION ; 


2) CREATE VIEW REDPART 
RS SELECT P.P#, P.PNAME, P.WEIGHT AS WT, P.CITY 
FROM 了 
WHERE P.COLOR = 'Red' 
WITH CHECK OPTION ; 


3) CREATE VIEW PQ 
AS SELECT P.P#, ( SELECT SUM ( SP.QTY ) 
FROM SP 
WHERE SP.P# = P.P# ) AS TOTQTY 
FROM Pp; 


SQL 认为 该 视图 不 可 更 新 ， 因 此 WITH CHECK OPTION 必须 省 略 。 


4) CREATE VIEW CITY PAIR 
AS SELECT DISTINCT S.CITY AS SCITY, P.CITY AS PCITY 
FROM 5S, SP, P 
WHERE S.S# = SP.S# 
AND SP.P# = P.P# ; 


SQL 认为 该 视图 不 可 更 新 ， 因 此 WITH CHECK OPTION 必须 省 略 。 


5) CREATE VIEW HEAVY REDPART 
AS SELECT RP.P#, RP.PNAME, RP.WT, RP.CITY 
FROM REDPART AS RP 
WHERE RP.WT > 12.0 
WITH CHECK OPTION ; 


存在 的 视图 可 以 用 DROP VIEW 语法 来 删除 ， 


DROP VIEW <view name> <behavior> ;} 





”这 是 更 新 视图 。 在 随后 我 们 会 发 现 ，SQL 的 视图 很 少 更 新 ， 检 查 点 对 于 不 更 新 的 视图 而 言 是 不 合法 的 。 
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< behavior > 选项 可 以 是 RESTRICT 或 CASCADE。 如 果 指 明 为 RESTRICT， 而 且 此 视图 在 其 
他 视图 定义 中 被 引用 或 在 某 个 完整 性 约束 中 被 引用 ， 则 DROP 操作 会 失败 ; 如 果 指 明 为 CAS- 
CADE， 则 DROP 操作 成 功 ， 参 照 它 的 视图 定义 和 完整 性 约束 也 会 被 删除 。 

视图 检索 

正如 10. 3 节 所 述 ， 当 前 的 SQL 标准 (SQL: 1992) 保证 所 有 的 视图 检索 正确 工作 。 不 幸 的 
是 ， 现 在 的 数据 库 产品 做 不 到 这 些 ， 也 不 能 达到 SQL 的 早期 版 本 的 要 求 。 

视图 更 新 

SQL/92 标准 对 视图 更 新 的 支持 有 限 。 同 时 这 也 非常 难以 理解 。 事 实 上 ， 这 个 标准 相对 于 遂 
常情 况 而 言 更 难 理解 和 接受 。 这 里 有 一 个 对 于 标准 的 摘录 : 

< query expression > QE1 被 更 新 当 且 仅 当 它 包 含 每 一 个 < query expression > 或 < specificaion > 


a) QE! 包含 QE2， 不 存在 任何 < non join query expression > 的 中 间 层 ， 如 UNION DIS- 
TINCT，EXCEPT ALL， 或 者 EXCEPT DISTINCT oo 

b) 如 果 QE1 仅 包含 一 个 具体 指定 为 UNION ALL 的 < non join query expression > NJQE， 则 

i. NJQE 包含 < query expression > LO 和 < query term > RO， 没有 一 个 节点 同时 存在 于 LO 
表 和 RO 表 中 。 
ii NJQE 中 的 每 一 列 分 别 存 在 于 LO 和 RO 中 ， 要 么 同时 被 更 新 ， 要 么 同时 不 被 更 新 。 

c) QE1 包含 QE2 ， 但 是 不 涉及 <non join query term > 。 

d) QE2 是 可 更 新 的 。 

注意 ，(a) 上 述 内 容 是 通常 要 考虑 到 的 一 个 规则 ， 用 以 决定 一 个 视图 是 否 能 够 被 更 新 ; 
(b) 规则 并 非 所 有 地 方 都 会 用 到 ， 但 是 在 文件 的 不 同 部 分 将 会 提 及 ; (c) 规则 依赖 于 附加 
的 各 种 概念 和 架构 ， 如 列 更 新 操作 ， < non join query term > 等 ， 这 些 将 在 后 文中 进一步 定 
义 。 

出 于 这 样 的 考虑 ， 在 这 里 我 们 不 去 试图 给 出 SQL 中 哪 一 个 视图 是 可 以 更 新 的 。 不 严格 地 讲 ， 
我 们 可 以 认为 SQL 中 以 下 的 视图 可 以 被 更 新 : 

1) 视图 定义 为 受 限 视图 ， 并且/ 或 者 基于 一 个 独立 的 数据 库 表 。 

2) 视图 的 定义 是 基于 两 个 数据 库 基 表 的 一 对 一 或 者 一 对 多 连接 (对 于 一 对 多 连接 的 情况 ， 
只 有 “多 ”的 一 方 可 以 被 更 新 ) 。。 

3) 通过 UNION ALL 或 者 INTERSECT 定义 的 视图 。 

4) 1、2、3 的 组 合 情 况 。 

而 且 ， 如 果 这 些 情况 没有 正确 被 处 理 的话 ， 幸 好 SQL 没有 谓词 的 限制 ,偶尔 的 情况 下 SQL 
允许 出 现 同 样 的 两 条 记录 。 而 且 ， 由 于 SQL 定义 了 四 种 不 同 的 情况 ， 使 得 结果 更 加 复杂 。 具 体 
而 言 ， 一 个 给 定 的 视图 可 以 被 更 新 、 简 单 地 更 新 或 者 插入 9 (可 更 新 操作 参照 UPDATE 和 DE- 
LETE; 可 插入 操作 参照 INSERT， 除 非 视 图 是 可 更 新 的 ， 否 则 无 法 插入 。) 

对 于 情况 1 而 言 ， 我 们 要 特别 注意 。 具 体 说 ， 一 个 SQL 视图 如 果 满 足以 下 所 有 条 件 的 话 ， 


”引用 参考 文献 [10. 11] :“SQL 标准 仍然 是 视图 更 新 开发 方法 (除了 实施 ) 的 障碍 ”。 

后” 我 们 没有 提 及 第 8 章 中 的 论点 ,但 是 SQL/99 增加 了 指定 一 个 明确 的 DISTINCT 修饰 语 作 为 UNION，INTER- 
SECT，EXCEPT 操作 上 ALL 的 替换 的 能 力 。 同 样 地 ， 修 饰 语 ALL 也 可 以 被 指定 为 SELECT 操作 上 DISTINCT 
的 替换 。 但 是 要 求 意 ，DISTINCT 是 UNION，INTERSECT 和 EXCEPT 操作 的 默认 值 ， 而 ALL 是 SELECT 的 默 
认 值 。 

四 ”结合 一 对 一 的 连接 ， 我 们 讨论 下 面 的 奇怪 现象 。SQL 非常 正确 地 要 求 在 这 样 的 连接 上 的 更 新 操作 必须 是 全 都 的 
或 完全 不 执行 的 。 但 是 这 种 要 求 〈 如 同 要求 大 体 上 所 有 的 更 新 都 是 全 部 的 或 完全 不 执行 的 ， 即 使 它们 包含 参照 
行为 ， 例 如 级 联 删 除 ) 意味 着 ， 系 统 不 得 不 支持 某 种 多 重 关系 任务 ， 尽 管事 实 上 SQL 不 包含 对 任何 这 种 操作 符 
的 明确 的 支持 。 

加 ”这 个 标准 正式 定义 了 这 些 术语 ， 但 是 没有 说 明 这 些 术语 直观 的 含义 以 及 它们 为 什么 会 被 挑 中。 注意 对 10.4 节 
“关于 视图 更 新 机 制 ” 小 节 中 第 9 条 原则 和 第 10 条 原则 的 违反 的 人 情况。 
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它 才 是 可 更 新 的 : 

1) 定义 视图 范围 表 的 表达 式 是 一 个 选择 表达 式 ; 也 就 是 说 ， 它 不 直接 包含 以 下 关键 词 : 
JOIN、UNION 、INTERSECT 或 EXCEPT。 

2) 选择 表达 式 的 选择 语句 不 直接 包含 关键 词 DISTINCT。 

3) 选择 诸 句 〈 可 能 包括 星 号 作为 选项 ) 中 的 每 一 个 选择 项 包含 一 个 合适 的 列 名 〈 可 以 伴 着 
AS 子 句 ) ， 表 示 所 对 应 的 表 的 一 个 列 (参见 第 5 条)。 

4) 选择 表达 式 的 FROM 子 句 只 包含 一 个 表 的 参照 。 

5) 这 个 表 的 参照 用 来 标识 一 个 基本 表 或 是 一 个 可 更 新 的 视图 。 注 意 : 这 个 用 表 的 参照 来 标 
识 的 表 就 是 这 个 可 更 新 视图 所 指向 的 表 (参见 第 3 条 )。 

6) 这 个 选择 表达 式 不 包含 这 样 一 个 WHERE 子 句 : 这 个 WHERE 子 名 包含 一 个 子 查询 ， 其 
中 FROM 所 指向 的 表 与 第 4 条 中 提 到 的 FROM 子 句 指向 的 表 是 同一 个 表 。 

7) 此 选择 表达 式 不 包含 GROUP BY 子 句 。 

8) 此 选择 表达 式 不 包含 HAVING 子 句 。 


10.7 小 结 


视图 实际 上 是 一 个 命名 了 的 关系 表达 式 ; 它 可 以 被 看 做 一 个 导出 的 、 虚 拟 的 关系 变量 。 在 视 
图 上 的 操作 事实 上 是 被 一 组 替换 过 程 完成 的 ; 也 就 是 说 ， 对 这 一 视图 名 的 引用 是 被 定义 这 个 视图 
的 表达 式 所 替换 了 一 一 并 且 由 于 封闭 性 ， 这 一 替换 过 程 能 够 准确 地 工作 。 对 于 检索 操作 ， 这 组 蔡 
换 过 程 百分之百 有 效 。 (虽然 实际 产品 中 做 不 到 ， 但 理论 上 是 这 样 的 。) 对 于 更 新 操作 ， 也 是 百 
分 之 百 有 效 ; (也 是 在 理论 上 上， 虽然 目前 的 产品 肯定 做 不 到 。) 但 对 某 些 视图 (如 定义 的 合计 视 
图 ) ， 更 新 会 由 于 违反 完整 性 约束 而 失败 。 我 们 列 出 了 更 新 模式 所 要 遵循 的 原则 的 一 个 超 集 ， 也 
列 出 了 更 新 模式 在 用 UNION、INTERSECTION、DIFFERENCE、RESTRICT、PROJECT、 
JOIN 和 EXTEND 操作 符 定义 的 视图 上 如 何 工作 。 对 于 它们 中 的 每 一 个 ， 也 详细 讨论 了 对 它们 
所 映射 的 关系 变量 的 谓词 引用 规则 。 

本 章 考察 了 视图 和 逻辑 上 的 数据 独立 性 的 问题 。 对 于 这 种 独立 性 有 两 方面 问题 : 可 成 长 性 和 
可 重 构 性 。 视 图 的 其 他 方面 还 包括 它 能 隐藏 数据 的 能 力 ， 这 样 它 就 能 够 提供 一 种 安全 性 手段 ; 它 
有 用 作 快 捷 方式 的 能 力 ， 这 可 使 用 户 更 轻松 。 接 下 来 又 解释 了 两 个 重要 的 准则 ， 互 变 准则 ( 它 
表示 无 论 情况 如 何 ， 视 图 总 是 可 更 新 的 ) 和 是 数据 相对 性 准则 。 

本 章 还 对 快照 进行 了 简单 的 讨论 〈 通 常 被 认为 是 物化 视图 ， 尽 管 这 种 看 法 不 对 ) 。 最 后 ， 对 
SQL 在 相关 方面 进行 了 概略 的 描述 。 
习题 
10. 1 为 在 London 的 供应 商定 义 一 个 视图 。 
10.2 ”定义 一 个 视图 ， 这 一 视图 包括 了 “供应 商 和 他 所 提供 的 零件 不 在 同一 地 点 ”的 供应 商号 和 零件 号 。 
10.3 ”从 供应 商 - 零件 -工程 数据 库 定 义 中 的 关系 变量 SPJ， 定 义 在 供应 商 - 零件 数据 库 中 的 视图 SP。 
10.4 在 供应 商 -零件 - 工程 数据 库 上 定义 视图 ， 使 它 包 含 所 有 由 S1 提供 零件 而 且 使 用 零件 Pl 的 工程 

(只 要 求 工程 编号 和 城市 属性 ) 。 

10.5 ”对 于 下 面 的 视图 定义 


VAR HEAVYWEIGHT VIEW 
( ( P RENAME ( WEIGHT AS WT, COLOR RS COL ) ) 
WHERE WT > WEIGHT ( 14.0 ) ) { P#¥, WT, COL } ; 


请 给 出 对 下 列 语句 实施 蔡 换 过 程 后 的 转化 形式 : 
a，HERAVYNEIGHT WHERE COL = COLOR ('Green') 
b. ( EXTEND HEAVYWEIGHT ADD ( WT + WEIGHT ( 5.3 ) ) AS WTP ) 
{ P#, WTP } 


¢, INSERT HEAVYWEIGHT 
RELATION { TUPLE { P# P# ('P99'), 
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WT WEIGHT ( 12.0 )， 
COL COLOR ('Purple') } }; 


d. DELETE HEAVYWEIGHT WHERE WT < WEIGHT ( 10.0 ) ; 
€, UPDATE HEAVYWEIGHT WHERE WT = WEIGHT ( 18.0 ) 
{ COL := ‘White’ } ;} 


设 练 习 10. 5 中 的 视图 HEAVYWEIGHT 的 定义 作 如 下 修改 : 


VAR HEAVYWEIGHT VIEW 
( ( ( EXTEND P ADD ( WEIGHT * 454 ) AS WT ) 
RENAME COLOR AS COL ) WHERE WT > WEIGHT ( 6356.0 ) ) 
{ P#, WT, COL } ; 


(也 就 是 说 ， 属 性 WT 现在 是 以 克 为 单位 的 重量 ， 而 不 再 是 以 磅 为 单位 ) 。 现 在 ， 重 复 练习 10. 5。 
对 于 10. 1 节 中 的 基于 代数 的 视图 定义 ， 给 出 其 对 应 的 基于 演算 的 定义 。 
在 视图 定义 中 ，ORDER BY 没有 意义 (尽管 事实 上 在 知名 的 数据 库 产 品 中 至 少 有 一 个 是 允许 使 用 
ORDER BY 的 )。 这 是 为 什么 ? 
在 第 9 章 中 说 过 ， 有 时 希望 能 够 在 视图 上 定义 候选 码 ， 或 者 是 主 码 。 为 什么 需要 这 一 手段 呢 ? 
为 了 支持 视图 ， 系 统 目 录 需 要 扩展 ， 系 统 需 要 哪些 扩展 呢 ? 对 于 快照 又 如 何 ? 
设 一 个 指定 的 关系 变量 R 可 以 被 两 个 限制 4 和 8 代替， A 和 B 满 足 4 UNION 8 等 于 R, 并且 A IN- 
TERSECT 8 等 于 空 。 这 种 情况 下 是 否 有 逻辑 上 的 数据 独立 性 ? 
如 果 4 和 8B 是 同一 种 关系 类 型 ， 如 果 存 在 4 INTERSECT 8B 等 于 4 JOIN 8 (JOIN 是 一 对 一 的 ， 但 
并 非 严格 要 求 ， 因 为 在 4 中 存在 的 元 组 不 一 定 在 中 中 有 与 之 相对 应 的 元 组 ， 反 之 亦 然 。) ， 那 么 在 
10. 4 节 中 给 出 的 对 于 INTERSECTION 视图 和 JOIN 视图 的 可 更 新 性 规则 是 否 还 适用 于 这 种 等 价 的 
形式 ? 
如 果 4 INTERSECT 下 还 等 于 4 MINUS (4 MINUS 38) ， 也 等 于 B MINUS (B MINUS 4)， 那么 
10.4 节 中 给 出 的 对 于 INTERSECTION 视图 和 DIFFERENCE 视图 的 可 更 新 性 规则 是 否 还 适用 于 这 种 
等 价 的 形式 ? 
在 10.4 节 中 给 出 了 一 条 准则 :INSERT 和 DELETE 是 互 反 的 操作 。 那 么 同样 在 那 一 节 中 讲 到 的 对 
于 UNION 、INTERSECTION 和 DIFFERENCE 视图 的 更 新 规则 是 否 也 遵守 这 一 准则 呢 ? 
在 10. 2 节 中 讲 到 了 重 构 供应 商 - 零件 数据 库 的 可 能 性 ， 这 是 用 关系 变量 $ 的 两 个 投影 SNC 和 ST 
代替 基本 关系 变量 来 实现 的 。 而 且 这 一 重 构 不 是 无 关 紧 要 的 ， 这 是 什么 意思 呢 ? 
对 于 你 可 利用 的 任 一 种 SQL 产品 : 
a) 能 否 找 到 一 个 使 视图 检索 失败 的 例子 ? 
b) 视图 更 新 的 规则 是 什么 ? (它们 可 能 不 如 在 10.6 节 中 所 讲 到 的 SQL/99 那么 严格 。) 
考察 供应 商 - 零件 数据 库 ， 为 了 简化 ， 忽 略 零 件 关系 变量 。 下 面 是 对 于 供应 商 和 发 货 的 两 个 可 能 的 
设计 概要 : 
a. S { S#, SNAME, STATUS, CITY } 
SP { S#, P#, QTY } 


b. SSP { S#, SNAME, STATUS, CITY, P#, QTY } 
XSS { S#, SNAME, STATUS, C1iTY } 


a 方案 是 常规 设计 方法 。 在 方案 b 中 ， 关系 变量 SSP 包含 了 每 一 个 发 货 元 组 ， 并 给 出 了 零件 号 、 数 
量 和 供应 商 的 全 部 细节 ; 关系 变量 XSS 包含 了 所 有 不 提供 任何 零件 的 供应 商 的 详细 内 容 (注意 : 
这 两 个 方案 是 信息 等 价 的 ， 而 且 体 现 了 互 换 性 准则 )。 给 出 方案 a 和 b 的 视图 定义 表达 式 ， 说 出 每 
一 方案 的 数据 库 约束 (关于 数据 库 约 束 的 内 容 请 参见 第 9 章 ) 。 是 否 每 一 方案 都 有 相对 于 另 一 方案 
的 优势 ? 如 果 有 的 话 ， 这 一 优势 是 什么 ? 

给 出 练习 10. 1 ~ 10.4 的 SQL 解答 。 

10. 4 节 中 给 出 的 关于 更 新 视图 的 运算 法 则 是 比较 严格 的 ， 比 如 删除 一 个 由 供应 商 和 运输 商 连接 所 
组 成 的 元 组 意味 着 仅仅 删除 运输 商 相应 的 部 分 ， 供 应 商 将 不 被 从 S 中 删除 。 请 加 以 讨论 。 

重新 考虑 ，3. 2 节 给 出 的 关系 模型 的 定义 ， 并 对 此 有 一 个 充分 的 理解 。 
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第 三 部 分 ”数据库 设计 


这 一 部 分 主要 介绍 数据 库 的 设计 (更 确切 地 说 是 关系 数据 库 的 设计 )， 数 据 库 设 计 问 题 可 以 
简单 地 描述 为 : 如 果 要 把 一 组 数据 存储 在 数据 库 中 ， 该 如 何 为 这 些 数据 设计 一 个 合适 的 逻辑 结 
构 ? 换 句 话说 就 是 ， 如 何 决定 存在 哪些 关系 变量 ， 以 及 各 个 关系 变量 中 应 该 有 哪些 属性 ? 这 个 问 
题 的 重要 性 是 显而易见 的 。 

在 详细 地 讨论 这 个 问题 前 ， 首 先 应 该 注意 以 下 几 个 问题 : 

(1) 应 该 注意 ， 在 这 里 只 讨论 逻辑 (或 者 是 概念 ) 设计 ， 而 不 是 物理 设计 。 当 然 ， 这 并 不 
是 说 物理 设计 不 重要 ， 相 反 ， 物 理 设 计 也 十 分 重要 ， 然 而 : 

1) 物理 设计 可 以 看 作 是 逻辑 设计 后 的 一 项 与 还 辑 设计 相互 独立 的 工作 。 也 就 是 说 ， 数 据 库 
设计 的 “正确 ”方法 是 首先 做 一 个 纯 运 辑 的 (例如 ; 关系 ) 设计 ， 然 后 ， 作 为 一 个 单独 的 后 续 
步骤 ， 把 逻辑 设计 映射 到 特定 的 DBMS 支持 的 物理 结构 上 (用 第 2 章 的 话 来 说 就 是 ， 物 理 设计 
应 该 在 还 辑 设计 的 基础 上 产生 ， 而 不 是 用 其 他 方法 产生 ) 。9 

2) 根据 定义 ， 物 理 设计 从 某 种 角度 来 说 是 依赖 于 特定 的 DBMS 的 ， 在 本 书 这 种 通用 教材 中 
不 宜 把 它 作为 一 个 主题 来 讨论 。 而 逻辑 设计 正 相 反 ， 它 是 独立 于 DBMS 的 ， 并 且 有 成 型 的 理论 
可 以 应 用 。 当 然 ， 这 些 理论 也 将 在 本 书 中 讨论 。 

遗憾 的 是 ， 现 实 世 界 并 不 完美 ， 在 实际 工作 中 ， 实 际 的 物理 阶段 的 设计 往往 会 对 逻辑 设计 产 
生 影 响 ，( 在 本 书 中 已 经 多 次 提 到 ， 现 在 的 DBMS 只 支持 从 逻辑 结构 到 物理 结构 的 简单 映射 。) 
用 另 一 名 话说， 数据 库 设计 是 逻辑 设计 一 物理 设计 一 逻辑 设计 这 样 一 个 反复 进行 的 过 程 ， 有 时 必 
须 反 复 多 次 ， 在 此 过 程 中 有 时 必须 作出 妥协 。 然 而 ， 我们 还 是 支持 原先 的 观点 ; 正确 的 数据 库 设 
计 方 法 是 首先 进行 数据 库 的 逻辑 设计 而 不 者 虚数 据 库 的 物理 设计 ， 因 此 ， 该 书 的 这 一 部 分 主要 讨 
论 “ 首 先 如 何 使 数据 库 的 还 辑 设计 正确 ”。 

(2) 虽然 所 讨论 的 主要 是 关系 数据 库 的 设计 ， 但 是 即将 讨论 的 这 些 思想 和 非 关系 数据 库 也 
是 密切 相关 的 。 也 就 是 说 ， 在 非 关 系数 据 库 的 设计 中 ， 正 确 的 方法 是 首先 作 一 个 正确 的 关系 设 
计 ， 然 后 作为 一 个 单独 的 步 又， 把 关系 设计 映射 到 任何 一 个 DBMS 支持 的 非 关 系 结 构 (如 层次 
结构 ) 上 。 

(3) 数据 库 设 计 应 该 说 是 一 种 艺术 而 不 是 一 种 科学 。 尽 管 有 一 些 科学 理论 可 以 应 用 到 这 个 
问题 上 ,而且 这 些 科学 理论 也 是 后 面 三 章 讨 论 的 对 人 象 ; 然而 ， 有 很 多 很 多 的 设计 问题 在 这 些 科学 
规则 中 根本 没有 提 到 。 因 此 ,很 多 数据 库 理 论 家 和 从 业者 提出 了 数据 库 设 计 方法 学 (design 
methodology) ， 从 某 种 程度 来 说 ， 它 们 都 可 以 用 来 处 理 到 目前 来 说 还 比较 难处 理 的 问题 ， 即 找 出 
一 个 合理 的 逻辑 设计 ,但 是 这 些 方法 有 些 相 当 严 格 ， 另 一 些 则 不 然 。 因 为 这 些 方法 在 一 定 程 度 上 
只 适用 于 某 些 特定 场合 ， 所 以 没有 客观 的 标准 来 判断 选择 哪 种 方法 较 好 。 然 而 ， 在 第 13 章 中 介 
绍 一 种 众所周知 的 方法 ， 这 种 方法 因为 它 的 许多 优点 而 被 广泛 使 用 。 在 该 章 中 还 简单 介绍 了 一 些 
商业 上 支持 的 方法 。 

(4) 需要 说 明 的 是 ， 以 下 两 个 假设 是 这 一 部 分 讨论 的 基础 : 

1) 数据 库 设计 不 仅仅 是 得 到 一 个 正确 的 数据 结构 ， 数 据 完整 性 是 数据 库 设计 的 关键 要 素 之 





QO 事实 上 ， 在 理想 情况 下 系统 应 该 能 够 自动 地 从 物理 设计 中 得 到 ， 在 这 个 过 程 中 根本 不 需要 人 的 插手 。 尽 管 这 个 
目标 听 起 来 像 是 空想 ， 附 录 A 描述 了 一 种 使 之 成 为 可 能 的 方法 。 
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一 。 这 一 点 将 在 以 后 的 各 个 章节 中 不 断 地 重复 和 强化 。 

2) 主要 讨论 具有 应 用 独立 性 的 设计 。 也 就 是 说 ， 主 要 讨论 数据 本 身 的 问题 ， 而 不 是 数据 怎 
样 被 使 用 的 问题 。 应 用 独立 性 之 所 以 重要 ， 是 因为 在 设计 阶段 不 可 能 知道 对 数据 的 所 有 使 用 方 
式 。 人 们 总 是 希望 自己 的 设计 是 重 棒 的 ， 即 不 希望 设计 的 数据 库 在 遇 到 一 个 在 设计 阶段 没有 考虑 
到 的 应 用 需求 时 把 它 当 做 非法 数据 。 换 白话 说 〈( 采 用 第 2 章 的 术语 ) ， 人 们 所 要 做 的 主要 是 使 
“概念 ”模式 正确 ， 即 设计 一 个 独立 于 硬件 、 操 作 系统 、DBMS 、 语 言及 用 户 的 抽象 的 远 辑 结构 ， 
而 对 于 前 面 所 说 的 因为 实现 问题 而 做 出 的 妥协 则 不 感 兴趣 。 

(5) 前 面 已 经 说 过 ， 数 据 库 设 计 主 要 是 确定 在 数据 库 中 应 有 哪些 关系 变量 ， 以 及 每 个 关系 
变量 中 应 该 有 哪些 属性 。 事 实 上 ， 还 要 确定 应 该 定义 哪些 域 或 类 型 ， 但 是 本 书 没有 对 这 个 主题 作 
过 多 的 介绍 ， 因 为 到 目前 为 止 有 关 这 个 问题 所 做 的 研究 还 不 多 ( [14.12] 和 [14.44] 除外 )。 

这 一 部 分 的 结构 安排 如 下 : 第 11 章 提出 一 些 基础 理论 ， 第 12、13 两 章 涉及 规范 化 思想 ， 该 
思想 直接 建立 在 前 面 介 绍 的 理论 基础 上 ， 目 的 是 给 非 形式 化 的 声明 一 个 形式 化 的 意义 ,以便 说 明 
某 种 设计 在 某 些 方面 比 另 一 种 设计 “好 ”。 第 14 章 介绍 语义 建 模 (semantic modeling) ， 特 别 介 
绍 了 “实体 /关系 ”(entry/relationship，ER) 模型 的 概念 ， 并 介绍 这 个 概念 如 何 运 用 于 自 上 而 下 
的 数据 库 设计 问题 。( 从 现实 世界 的 实体 开始 ， 以 规范 的 关系 设计 结束 。) 





第 11 章 函数 依赖 


11.1 引言 


本 章 首先 介绍 一 下 基本 概念 一 一 函数 依赖 。 参 考 文献 [11.7] 中 把 这 一 概念 描绘 为 “不 是 
很 基础 ， 但 十 分 接近 基础 的 ”概念 。 这 个 概念 对 以 后 各 章 要 讨论 的 几 个 问题 (特别 是 第 12 章 要 
讨论 的 数据 库 设 计 理 论 ) 都 非常 重要 。 但 是 注意 ， 它 的 有 用 性 并 不 仅 限 于 这 一 用 途 ， 实际 上 ， 
本 章 本 来 也 可 以 包含 在 第 二 部 分 而 不 是 第 三 部 分 。 

函数 依赖 主要 是 指 给 定 关 系 变量 中 一 个 属性 集 和 另 一 个 属性 集 间 的 多 对 一 关系 。 例 如 ， 在 发 
货 关系 变量 SP 中 存在 由 属性 集 {S#，P#| 到 属性 集 1QTY| 间 的 函数 依赖 ， 它 的 意思 是 ， 对 于 
关系 变量 SP 的 任意 一 个 合法 值 (关系 ) : 

1) 对 于 任意 给 定 的 属性 对 S# 和 P# 的 值 ， 只 有 一 个 QTY 的 值 与 之 对 应 。9 

2) 但 是 ， 可 以 存在 许多 S$# 和 P# 的 不 同 的 值 ， 而 它们 所 对 应 的 QTY 的 值 相同 。 

注意 ; 我 们 通常 所 举 的 SP 的 例子 ( 见 图 3-8) 确实 满足 以 上 两 个 条 件 ; 我 们 又 多 了 一 个 依 
赖 于 元 组 相等 定义 的 概念 。 

在 11.2 节 中 ， 我们 将 进一步 介绍 函数 依赖 的 概念 ， 严 格 区 分 那些 只 在 某 些 特定 的 条 件 下 才 
能 满足 给 定 的 关系 变量 的 函数 依赖 和 在 任何 条 件 下 都 能 满足 给 定 的 关系 变量 的 函数 依赖 。 已 经 提 
到 过 ， 函 数 依赖 是 科学 解决 许多 实际 问题 的 基础 ， 其 原因 是 函数 依赖 具有 一 些 有 趣 的 形式 化 的 特 
性 ， 这 使 得 可 以 用 一 种 形式 化 的 、 严 格 的 方法 处 理 所 讨 论 的 问题 。11. 3 节 至 11.6 节 详 细 介绍 了 
这 些 形式 化 特性 及 它们 在 实际 工作 中 的 重要 性 。11.7 节 给 出 简单 总 结 。 

注意 : 这 是 本 书 中 最 形式 化 的 一 章 ， 可 能 在 第 一 次 阅读 的 时 候 ， 你 想 要 跳 过 其 中 的 一 些 部 
分 。 实 际 上 ， 为 了 理解 后 面 三 章 内 容 所 应 了 解 的 大 部 分 概念 在 11.2 节 和 11.3 节 做 了 介绍 ， 所 以 
第 一 次 阅读 本 书 时 ， 对 其 余部 分 可 以 只 简单 地 看 看 ， 等 消化 吸收 了 后 面 三 章 的 内 容 后 再 回 过 头 来 
仔细 阅读 这 些 内 容 。 


11.2 基本 概念 


为 了 解释 本 节 的 一 些 概念 ， 我们 把 发 货 关系 变量 稍 作 修改 ,使 它 除 了 含有 原来 的 属性 ，S# 
(供应 商 编号 ) 、P# (零件 编号 ) 和 QTY (发 货 量 ) 外 ， 增 加 一 个 属性 CITY (城市 ) ， 该 属性 表 
示 供 应 商 的 地 址 ， 为 了 防止 混淆 ， 把 这 个 关系 变量 称 为 SCP。 关 系 变量 SCP 的 一 个 可 能 的 值 见 
图 11-1。 

现在 ， 有 必要 分 清楚 以 下 两 种 不 同 的 情况 : (a) 给 定 的 关系 变 
量 在 某 一 特定 时 间 的 值 ; (b) 给 定 关系 变量 在 不 同时 候 所 有 可 能 的 
值 。 首 先 根据 情况 a 讨论 函数 依赖 ， 然 后 ， 把 函数 依赖 的 概念 扩展 
到 情况 b。 下 面 是 情况 a 的 定义 : 

s 函数 依赖 ， 情 况 a: 假设 > 是 一 个 关系 , 不 和 了 是 了 的 属性 集 

的 任意 子 集 。 当 且 仅 当 7 中 任 一 给 定 的 X 的 值 ， 在 r 中 存在 
一 个 唯一 的 了 与 之 对 应 。 也 就 是 说 ， 如 果 针 相等 ,7Y 也 相 
等 ， 则 了 函数 依赖 于 XX， 表 示 为 


XY 





关系 变量 SCP 的 
一 个 实例 





”注意 ， 这 种 陈述 正确 ， 是 因为 某 种 “商业 规则 ”有 效 ( 见 第 9 章 ) 一 一 即 对 一 个 给 定 供应 商 和 一 种 给 定 零 件 ， 
在 任 一 给 定时 间 ， 至 多 只 有 一 次 供 货 。 也 就 是 说 ， 函 数 依赖 表达 的 是 语义 信息 〈 数 据 的 意义 ) ， 而 不 是 由 在 某 个 
特殊 时 间 点 上 恰巧 出 现在 数据 库 中 的 一 些 特殊 值 而 产生 的 偶然 事件 。 
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( 读 作 X 函数 决定 Y， 或 简单 读 作 和 指向 了 。) 
例如 ， 图 11-1 所 示 的 关系 满足 下 述 函 数 依赖 : 


{ S# } —» { CITY } 


因为 这 个 关系 的 任 一 给 定 的 S# 值 都 有 一 个 给 定 的 CITY 与 之 对 应 。 事 实 上 ， 该 关系 还 满足 下 列 肾 
数 依赖 : 


{ S#, P# 一 { QTY } 

{ S#, P# } = { CITY } 

{ S#, P# } 一 { CITY, QTY } 

{ S#, P# 一 { S# 

{ S#, P# 一 { S#, P#, CITY, QTY } 
{ S# } 一 { QTY } 

{ QTY } —> { S# } 


(练习 : 检查 这 些 函 数 依赖 的 正确 性 。) 

函数 依赖 表达 式 的 左边 和 右边 有 时 分 别称 为 自 变 量 (determinant) 和 应 变量 (dependent ) 。 
根据 定义 ， 自 变量 和 应 变量 都 是 属性 集 。 当 某 个 属性 集 只 含有 一 个 属性 时 ， 即 单元 素 集 〈single- 
ton set) 时 ， 可 以 把 花 括号 对 省 去 ， 例如: 


S# 一 CITY 


前 面 已 经 解释 过 ， 上 面 的 定义 只 适用 情况 a， 即 只 适用 于 单独 的 一 个 关系 。 然 而 当 考虑 关系 
变量 ， 特 别 是 基本 关系 变量 时 ， 人 们 所 感 兴趣 的 就 不 是 对 关系 变量 的 某 个 或 某 些 关系 适用 的 函数 
依赖 ， 而 是 对 关系 变量 所 有 可 能 的 值 都 适用 的 函数 依赖 。 例 如 在 SCP 中 ， 函 数 依赖 : 


S# 一 CITY 


对 SCP 的 所 有 可 能 值 都 适用 ， 因 为 在 任何 情况 下 ， 一 个 给 定 的 供应 商 有 一 个 确定 的 地 址 〈CIT- 
Y) ， 所 以 在 SCP 中 的 任意 两 个 元 组 ， 如 果 它 的 供应 商 编号 〈S#) 相等 ， 则 它们 的 地 址 (CITY ) 
相等 。 事 实 上 ,“ 任 何 时 间 ” 都 适用 的 函数 依赖 〈 例 如 对 SCP 所 有 可 能 的 值 ) 是 关系 变量 SCP 
的 完整 性 约束 条 件 一 一 它 是 对 SCP 所 有 被 认为 合法 的 值 的 一 个 限制 。 下 面 用 第 9 章 的 语法 定义 
这 种 约束 的 表述 : 
CONSTRAINT S# CITY FD 
FORALL SCEX FORALL SCPY 


{ IF SCPX.S# = SCPY.S# 
THEN SCPX.CITY = SCPY.CITY END IF }); 


(SCPX 和 SCPY 是 包括 SCP 的 范围 变量 。) 语法 S# >*CITY 可 以 看 作 是 上 述 表述 的 简写 。 
(练习 : 给 出 这 一 约束 的 代数 表示 。) 

下 面 是 在 情况 b 下 函数 依赖 的 定义 〈 对 情况 a 的 扩展 用 黑体 字 表 示 ): 

s 函数 依赖 ， 情 况 b: 设 R 是 关系 变量 , X、Y 是 RR 的 属性 集 的 任意 子 集 。 当 且 仪 当 对 于 RR 
的 所 有 可 能 的 合法 值 , XX 的 值 和 Y 的 值 密切 相关 。 也 就 是 说 ， 对 于 R 的 所 有 可 能 的 合法 值 ， 当 两 
个 元 组 的 X 值 相等 时 ,了 值 也 相等 ， 则 了 函数 依赖 于 大 ， 表 示 为 : 


XY 


( 读 作 X 函数 决定 了 Y， 或 简单 读 作 和 指向 7Y。) 

今后 ， 我 们 说 “函数 依赖 ” 指 的 是 要 求 更 加 严格 的 、 具 有 时 间 独 立 性 的 函数 依赖 ， 而 不 必 
详细 说 明丽 数 依赖 成 立 的 条 件 。 

下 面 是 关系 变量 SCP 的 一 些 函 数 依赖 (具有 时 间 独 立 性 ): 


S#, P# } 一 QTY 
S#, P# } 一 CITY 





S#, P# } —» { CITY, QTY } 
S# 


A 
[ep] 
Bd 
Vv 


} 一 
S#, P# } 一 S#, P#, CITY, QTY } 
一 


{ 
CITY 





贷 11 昔 贡 发 让 着 211 


特别 要 注意 下 列 函 数 依赖 ， 它 们 在 图 11-1 的 情况 下 成 立 , 但 并 不 是 任何 时 间 对 关系 变量 
SCP 都 成 立 。 


S# — QTY 

QTY 一 S# 
换 句 话说 ， 在 图 11-1 中 ,命题 “给 定 供 应 商 的 每 一 次 的 发 货 量 是 相等 的 ”是 真 的 ， 但 并 不 是 对 
关系 变量 SCP 的 所 有 可 能 的 合法 值 都 为 真 。 

如 果 针 是 关系 变量 R 的 候选 码 ， 则 关系 变量 R 的 任意 属性 7 了 一定 函 数 依赖 于 XX (这 一 点 在 
9. 10 节 提 到 过 ， 它 可 以 从 候选 码 的 定义 中 得 出 )。 例 如 ， 在 零件 关系 变量 P 中 ， 应 该 有 : 


Pi 一 { P#, PNAME, COLOR, WEIGHT, CITY } 


事实 上 ， 如 果 关 系 变量 满足 函数 依赖 4 一 B， 而 4 不 是 候选 码 ,? 则 R 一 定 存 在 帘 余 。 例 如 在 
关系 变量 SCP 中 ， 表 示 给 定 的 供应 商 (S#) 一 般 居住 在 给 定 的 城市 (CITY) 的 函数 依赖 8#- 一 
CITY 会 出 现 多 次 (参见 图 11-1) 。 下 一 章 将 对 这 个 问题 作 详细 的 介绍 。 

即使 只 考虑 任何 时 间 都 满足 的 函数 依赖 ， 一 个 给 定 的 关系 变量 的 完整 函数 依赖 集 还 是 很 庞大 
的 ， 如 关系 变量 SCP 所 示 (练习 : 给 出 SCP 的 完整 的 函数 依赖 集 ) 。 应 该 寻找 一 个 方法 把 这 个 
集合 缩小 到 一 个 可 管理 的 范围 一 一 事实 上 ， 本 章 的 剩余 部 分 主要 讨论 这 个 问题 。 

为 什么 这 个 问题 值得 讨论 呢 ? 原因 之 一 是 函数 依赖 表示 某 种 完整 性 约束 条 件 ， 而 DBMS 需 
要 实现 这 种 完整 性 约束 条 件 。 给 定 一 个 函数 依赖 集 3$， 如 果 能 找到 一 个 集合 7，7 远 远 小 于 S， 而 
集合 7 的 函数 依赖 蕴涵 集合 5 的 所 有 函数 依赖 ， 则 DBMS 只 要 实现 函数 依赖 集 了 了， 函数 依赖 集 5 
中 的 所 有 函数 依赖 会 自动 实现 ， 因 此 ， 寻 找 函 数 依赖 集 了 7 具有 实践 上 的 重要 性 。 
11.3 平凡 的 函数 依赖 和 非 平凡 的 函数 依赖 

注意 ， 在 本 章 的 剩余 部 分 常常 把 “函数 依赖 ”简称 为 “依赖 "， 同 样 对 “函数 依赖 于 ”和 
“ 通 数 决定 ”等 作 相 应 的 简化 。 

缩小 函数 依赖 集 大 小 的 一 个 简单 方法 是 消除 平凡 的 函数 依赖 ， 一 个 必须 满足 的 函数 依赖 称 为 
平凡 的 函数 依赖 。 在 前 面 提 到 的 关系 变量 SCP 的 一 个 函数 依赖 就 是 平凡 的 函数 依赖 ， 即 函数 依 
赖 : 

{ S#, P# } 一 S# 
事实 上 ， 当 且 仪 当 函 数 依赖 的 右边 是 左边 的 子 集 (不 一 定 是 真子 集 ) 时 ， 该 函数 依赖 才 是 平凡 
的 函数 依赖 。 

正如 名 称 所 示 ， 平 凡 的 函数 依赖 并 没有 实际 意义 ， 实 际 上 人 们 所 感 兴趣 的 是 非 平凡 的 函数 依 
赖 ， 因 为 只 有 它们 才 和 “真正 的 ”完整 性 约束 条 件 相 关 。 然 而 ， 在 讨论 规范 化 时 ， 必 须 处 理 所 
有 的 依赖 : 平凡 的 函数 依赖 和 非 平凡 的 函数 依赖 。 
11.4 依赖 集 的 闭 包 

前 面 已 经 提 到 过 ， 有 些 函 数 依赖 荀 涵 另 一 些 函 数 依赖 。 举 个 简单 的 例子 ， 函 数 依 赖 : 


{ S#, P# } 一 { CITY, QTY } 


蕴涵 下 面 两 个 函数 依赖 : 


{ S$, P# } 一 CITY 
{ S#, P# } — QTY 


作为 一 个 比较 复杂 的 例子 ， 假 设 一 个 关系 变量 R 有 三 个 属性 4、B 和 C， 如 果 R 满足 函数 依 
赖 4-*B 和 BC， 很 容易 就 可 以 发 现 R 同样 满足 函数 依赖 4 一 C。 这 里 函数 依赖 4 一 C 是 传递 函 








他 ”并 且 函 数 依赖 是 非 平 凡 的 〈 见 11.3 节 ) ，4 不 是 超 码 (网 11.5 节 ) ，R 包含 至 少 两 个 元 组 。 
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数 依赖 的 一 个 例子 一 一 即 C 通过 传递 依赖 于 4。 

函数 依赖 集 5 所 蕴涵 的 函数 依赖 的 全 体 称 为 函数 依赖 集 $ 的 闭 包 ， 记 为 8$” (注意 : 与 关系 
代数 中 的 闭 包 无 关 ) ， 很 显然 ， 我 们 需要 一 个 算法 用 以 从 一 个 给 定 集合 $ 中 求 出 它 的 闭 包 S* ， 对 
这 个 问题 的 阐述 最 早出 现在 Armstrong [11.2] 的 论文 里 ， 他 提出 了 一 组 推理 规则 ( 常 被 叫做 
Armstrong 公理 ) ， 通 过 这 些 推理 规则 ， 可 以 从 给 定 的 函数 依赖 中 推出 新 的 函数 依赖 。 这 些 规 则 
可 以 用 许多 等 价 的 方法 乌 述 ,下面 是 其 中 最 简单 的 一 种 ; 假设 A4、B 和 C 是 给 定 的 关系 变量 R 的 
属性 集 的 任意 子 集 ， 并 把 4 和 8 的 并 集 记 为 48， 则 : 

1) 自 反 律 (reflexivity) : 如 果 B 是 4 的 子 集 ， 则 4 一 B。 

2) 增 广 律 (augmentation) : 如 果 4 一 B， 则 A4C-»BC。 

3) 传递 律 (transitivity) : 如果 4 一 了 3 且 8 一 C， 则 4 一 C。 

以 上 的 每 一 个 规则 都 可 以 从 函数 依赖 的 定义 直接 证 明 。( 当然 ， 第 一 条 规则 正好 是 平凡 的 函数 
依赖 的 定义 。) 并 且 该 公理 是 完备 的 ， 即 给 定 一 个 函数 依赖 集 $， 该 晃 数 依赖 集 所 有 蕴涵 的 函数 依 
赖 都 可 以 利用 这 些 规则 从 5 中 导出 ， 另 外 该 公理 是 有 效 的 ， 即 所 有 不 是 由 函数 依赖 集 5 蕴涵 的 函数 
依赖 不 能 根据 该 公理 系统 从 3 导出。 也 就 是 说 ， 可 以 利用 该 公理 系统 推导 5 的 闭 包 7 。 

从 上 面 的 规则 可 以 导出 其 他 规则 (如 下 所 示 ) ， 这 些 规则 在 实际 工作 中 可 以 用 来 简化 从 5 中 
计算 5' 的 工作 (在 下 面 列 出 的 规则 中 ，D 是 关系 变量 R 的 属性 集 的 另外 一 个 子 集 ) 。 

4) 自 含 规则 (self_determination) : 4 一 4。 

5) 分 解 规则 ( decomposition) : 如 果 4 一 BC， 则 4 一 8B， 且 4 一 C。 

6) 合并 规则 (union) : 如 果 4 一 妈 且 4 一 C， 则 4 一 BC。 

7) 复合 规则 (composition) : 如 果 4 一 8，C 一 D， 则 4C 一 有 D。 

Darwen 证 明了 下 面 的 定理 [11.7] ， 该 规则 被 称 为 “通用 一 致 性 定理 ” ( General Unification 
Theorem ) : 

8) 如 果 A4 一 8B 且 C-D, 则 4U (C-B) 一 Bp。 (“U” 表 示 并 集 ， “- ”表示 
差 集 。) 

该 定理 之 所 以 被 称 为 “通用 一 致 性 定理 ”， 是 因为 很 多 早期 的 规则 可 以 被 看 做 该 定理 的 特例 
[11.7]。 

例 : 假设 有 一 个 关系 变量 R，A、8、C、D、E、F 是 它 的 属性 ，R 满足 下 列 函 数 依赖 : 


可 以 看 出 ， 这 里 对 符号 稍微 作 了 相 容 的 扩充 例如， 用 BC 表示 B 和 C 中 的 所 有 属性 (精确 地 
说 ，BC 表示 B 和 C 的 并 集 )。 注 意 : 如 果 想 用 更 具体 的 例子 ， 可 以 假定 4 是 雇员 号 ，B 是 部 门 
号 ，C 是 经 理 的 雇员 号 ,D 是 一 个 经 理 负责 的 工程 的 工程 号 (对 于 某 个 经 理 ， 工 程 号 是 唯一 
的 ) ，E 是 部 门 名 称 ，F 表示 某 个 经 理 分 配 某 个 工程 的 时 间 。 

从 下 面 可 以 看 出 ， 在 R 中 函数 依赖 AD->F 是 成 立 的 ， 且 是 给 定 函 数 依赖 集 的 闭 包 的 一 个 成 员 : 

1. A 一 BC (给 定 ) 

2.a 一 C (1, 分 解 规则 ) 

3. ap ”cp (2, 增 广 律 ) 

4. cp -BF (给 定 ) 

5. ap 二 EF (3 和 4, 传递 律 ) 

6. ap 一 下 (5， 分 解 规则 ) 


11.5 属性 集 的 闭 包 


原则 上 讲 ， 通 过 算法 : 反复 运用 前 面 讲 的 规则 ， 直 到 不 再 产生 新 的 函数 依赖 为 止 ， 就 可 以 计 
算出 一 个 函数 依赖 集 5 的 闭 包 9” 。 但 是 ， 因 为 这 种 算法 的 效率 很 低 ， 所 以 在 实际 工作 中 ， 几 乎 
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没有 必要 计算 闭 包 本 身 。 本 节 将 介绍 如 何 计算 一 个 闭 包 的 子 集 : 即 该 子 集 包含 所 有 左边 是 特定 的 
属性 集 Z 的 函数 依赖 。 更 精确 地 说 ， 给 定 一 个 关系 变量 R，R 的 一 个 属性 集 Z， 以 及 尺 的 一 个 函 
数 依赖 集 5， 从 中 确定 R 中 所 有 的 函数 依赖 于 Z 的 属性 集 一 一 即 属性 集 Z 关 于 函数 依赖 集 5 的 闭 
包 2'。” 图 11-2 是 计算 该 闭 包 的 算法 (练习: 证 明 该 算法 的 正确 性 ) 。 

CLOSURE[2,5] := 2; 


do "forever" :; 
for each FD X 一 了 in S 
do ;} 





if X C CLOSURE[2Z,5S] 
then CLOSURE[Z2,S5] := CLOSURE[2,S] U Y; 
end 
it CLOSURE[Z,S5] did not change on this iteration 
then leave the loop ; /* computation complete */ 
end ; 





图 11-2 计算 属性 集 Z 关 于 3 的 闭 包 2 


下 面 开 始 计算 属性 集 14，B} 关于 函数 依赖 集 S 的 闭 包 {4，B| 。 

1) 初始 化 : 令 集合 CLOSURE [Z, 5] = {A4, 8}。 

2) 进行 四 次 内 循环 ， 一 次 一 个 函数 依赖 。 第 一 次 循环 〈 对 于 函数 依赖 4 一 BC) 时 发 现 它 的 
左边 是 到 目前 为 止 计算 的 集合 CLOSURE [2Z，5] 的 子 集 ， 所 以 把 属性 (B8 和 ) C 加 入 集合 
CLOSURE [2Z,S]， 这样， 集合 CLOSURE [2Z，、5S] 就 变 为 14, 8, Cl|。 

3) 第 二 次 循环 (对 于 函数 依赖 ECF) 发 现 它 的 左边 不 是 到 目前 为 止 计 算 的 结果 的 子 集 ， 
因此 该 结果 保持 不 变 。 

4) 第 三 次 循环 (对 于 函数 依赖 一 E)， 把 E 加 入 集合 CLOSURE [2Z，S]， 这 样 ，CLO- 
SURE [2, $§)] = {4, 8, C, E!。 

5) 第 四 次 循环 (对 于 函数 依赖 CD 一 EF) ， 集 合 保持 不 变 。 

6) 再 一 次 经 过 四 次 内 循环 ， 第 一 次 循环 结果 不 变 ， 第 二 次 结果 扩展 到 14, 8, C, E, Fl， 
第 三 次 和 第 四 次 不 变 。 

7) 再 一 次 经 过 四 次 内 循环 ,集合 CLOSURE [Z，$8] 保持 不 变 ， 这 样 ， 整 个 过 程 结 束 ， 结 
果 : {4, Bl*= 14, B,C, E, Fl。 

注意 : (如 所 陈述 的 ) 如 果 Z 是 关系 变量 R 的 一 个 属性 集 ， 并 且 5 是 RR 所 具有 的 函数 依赖 的 
集合 ， 那 么 R 所 具有 的 以 Z 为 左 端的 函数 依赖 的 集合 包含 所 有 形 如 ZZ' 的 函数 依赖 ， 其 中 Z' 是 
属性 集 Z 关 于 5 的 闭 包 2Z' 的 某 个 子 集 。 函 数 依 束 的 原始 集合 5 的 闭 包 8 是 所 有 这 样 的 函数 依赖 
集合 的 并 ，2Z 为 任意 可 能 的 属性 集合 。 

根据 前 面 的 讨论 可 以 得 出 这 样 一 个 重要 结论 : 给 定 一 个 函数 依赖 集 95， 可 以 方便 地 判断 函数 
依赖 XY 是否 可 以 从 5 中 导出 ， 因 为 当 且 仅 当 了 是 属性 集 X 关 于 5 的 闭 包 的 子 集 时 ，X-*Y 才 能 
根据 Armstrong 公理 由 5 中 导出 。 也 就 是 说 ， 可 以 用 一 种 简单 的 方法 ， 该 方法 不 必 精确 计算 函数 
依赖 集 5 的 闭 包 S$* ， 就 能 判断 函数 依赖 ->Y 是 否 属于 函数 依赖 集 5 的 闭 包 5 。 

-还 可 以 得 出 另外 一 个 重要 的 结论 。 在 第 9 章 中 讲 过 ， 关 系 变量 R 的 超 码 是 关系 变量 R 的 属 
性 集 ， 该 关系 变量 的 一 些 候选 码 是 该 属性 集 的 子 集 (不 必 是 真子 集 ) 。 由 此 可 以 得 出 以 下 结论 : 
给 定 关系 变量 R 的 超 码 一 定 是 的 属性 集 的 一 个 子 集 尺 ， 对 于 R 中 的 任意 属性 集 的 子 集 4 有 函 
数 依赖 : 





四 注意， 现在 我 们 用 到 了 两 种 类 型 的 闭 包 : 函数 依赖 集 的 闭 包 及 关于 函数 依赖 集 的 属性 集 的 闭 包 ; 并 且 使 用 相同 
的 符号 “加 号 上 标 ” 来 表示 它们 。 我 们 希望 这 种 双重 的 使 用 不 会 带 来 混淆 。 
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KA 


成 立 ， 也 就 是 说 ， 当 且 仅 当天 关于 给 定 函 数 依赖 集 的 闭 包 K* 是 R 的 所 有 属性 的 集合 时 ,KK 为 超 
码 〈 当 且 仅 当 开 是 不 可 约 的 超 码 时 ,到 是 候选 码 ) 。 


11.6 最 小 函数 依赖 集 


假设 51 和 52 是 两 个 函数 依赖 集 ， 如 果 S1 蕴涵 的 所 有 函数 依赖 都 为 2 所 蕴涵 ， 即 S1' 是 
52' 的 子 集 ， 则 52 是 $1 的 覆盖 , ”DBMS 只 要 实现 了 52 中 的 函数 依赖 ， 就 自动 实现 51 中 的 函数 
依赖 


如 果 52 是 51 的 覆盖 ， 同 时 S1 是 92 的 覆盖 ， 则 Sl 和 52 等 价 ， 即 51 = 2， 。 很 显然 ， 如 
果 Sl 和 只 等 价 ， 则 DBMS 只 要 实现 51 中 的 函数 依赖 ， 就 自动 实现 52 中 的 函数 依赖 ， 反 之 
亦 然 。 

当 且 仅 当 函 数 依赖 集 满足 以 下 条 件 时 ， 该 函数 依赖 集 为 最 小 函数 依赖 集 :° 

1) 每 个 函数 依赖 的 右边 〈 应 变量 ) 只 含有 一 个 属性 ( 即 它 是 单元 素 集合 ) 。 

2) 每 个 函数 依赖 的 左边 自 变量 ) 是 不 可 约 的 一 “删除 自 变量 的 任何 一 个 属性 都 将 改变 闭 
包 S' ( 即 会 使 5 转变 为 一 个 不 等 价 于 原来 的 5 的 集合 ) 。 这 种 函数 依赖 被 称 为 左 部 不 可 约 的 函数 
依赖 。 

3) 删除 $ 中 任何 一 个 函数 依赖 都 将 改变 它 的 闭 包 5* ， 即 使 5 转变 为 一 个 不 等 价 于 原来 的 5 
的 集合 。 

关于 第 2 点 和 第 3 点 ， 在 这 里 要 指出 的 是 ， 为 了 知道 如 果 删 除 某 些 元 素 是 否 会 改变 闭 包 ， 设 
必要 清楚 地 知道 闭 包 的 内 容 。 例 如 ， 观 察 大 家 熟悉 的 零件 关系 变量 P， 有 下 列 函 数 依赖 


P# 一 PNAME 
P# -3 COLOR 
P# 一 WEIGHT 
P# 一 CITY 


显而易见 ， 该 函数 依赖 集 是 最 小 依赖 集 : 每 个 函数 依赖 中 右边 只 含有 一 个 属 人 性， 同样 ， 左 边 也 是 
不 可 约 的 ， 且 任何 一 个 函数 依赖 都 不 能 被 删除 而 不 改变 闭 包 ( 即 不 丢失 信息 ) 。 相 反 ， 下 面 的 函 
数 依赖 集 不 是 最 小 依赖 集 。 

1) P# 一 { PNAME, COLOR} 第 一 个 函数 依赖 的 右边 不 是 单 属性 集 


P# 一 WEIGHT 
P# — CITY 


2) { P#，PNAMFE } 一 COLOR ”第 一 个 函数 依 粮 左边 的 PNAME 可 以 


P# 一 PNAME 删除 而 不 改变 闭 包 ( 即 左边 是 可 约 的 ) 
Pp# 一 WEIGHT 
P# 一 CITY 


3) Pp# 一 Pp# 第 一 个 函数 可 以 删除 而 不 改变 闭 包 
P# 一 PNAME 
P# 一 COLOR 
Pp# 一 WEIGHT 
P# -CITY 


任何 一 个 函数 依赖 集 至 少 存在 一 个 最 小 函数 依赖 集 。 假 设 函数 依赖 集 为 5， 根据 分 解 规 则 ， 
可 以 假定 S 中 的 每 个 函数 依赖 的 右边 是 单 属性 的 而 不 会 失去 它 的 一 般 性 (如 果 右 边 不 是 单 属性 
的 ， 则 可 以 利用 分 解 规则 把 它 分 解 成 单 属性 )。 接 着 考察 每 个 函数 依赖 f 左边 的 每 一 个 属性 4， 
如 果 把 A 从 了 的 左边 删除 而 并 不 改变 闭 包 ， 则 把 4 从 了 的 左边 删除 。 然 后 考察 3 中 剩余 的 每 一 个 
函数 依赖 /， 如 果 把 /删除 而 不 改变 闭 包 ， 则 把 /从 5 中 删除 。 最 后 所 得 的 集合 $ 是 和 原来 的 函数 
依赖 集 5 等 价 的 最 小 函数 依赖 集 。 





@ 一些 作 者 使 用 术语 “ 儿 盖 ”表达 我 们 所 说 的 〈 稍 后 ) 等 价 集 。 
@@ 通常 在 文献 中 称 为 最 小 集 。 
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例 : 假设 给 定 关 系 变量 R,，A、B、C、D 是 RR 的 属性 集 ，R 满足 函数 依赖 : 


EPP 
yilLy 
UNwmom 

S 


>» 


涝 
这 
于 
柱 


该 函数 依赖 的 最 小 函数 依赖 集 。 
有 的 函数 依赖 写成 右边 是 单 属性 的 函数 依赖 : 


一 
— 


所 
B 
c 
C 
B 
C 


phE WD 
44l414 沙 


bb 


很 显然 ， 函 数 依赖 4 一 B 出 现 了 两 次 ， 可 以 删除 其 中 的 一 次 。 

2) 可 以 把 C 从 函数 依赖 4C-*D 的 左边 删除 ， 因 为 4 一 C， 根 据 增 广 律 可 以 得 出 4 一 4C， 给 
定 AC-*D， 根 据 传递 律 可 以 得 出 A 一 D。 所 以 C 在 函数 依赖 4C-*D 的 左边 是 元 余 的 。 

3) 接着 发 现 可 以 删除 函数 依赖 4B 一 C， 因 为 4 >C， 根 据 增 广 律 可 得 4B-*CB， 又 根据 分 解 
规则 可 以 导出 48 一 C。 

4) 函数 依赖 4 一 C 由 函数 依赖 4 一 B 和 8 一 C 蕴涵 ， 所 以 可 以 删除 它 。 最 后 剩 下 下 列 函 数 
依赖 : 


二 二 二 
UAm 


A 
8B 
A 


该 集合 不 可 约 。 

一 个 函数 依赖 集 7 是 不 可 约 的 ， 且 等 价 于 某 个 函数 依赖 集 3S， 则 说 7 是 $ 的 最 小 等 价 依赖 集 。 
这 样 ， 如 果 要 实现 一 个 函数 依赖 集 5， 系 统 只 要 实现 它 的 一 个 最 小 依赖 集 就 足够 了 (重复 一 次 : 
要 计算 最 小 依赖 集 7 不 必 计算 闭 包 8" ) 。 应 该 记 住 ， 给 定 函数 依赖 集 的 最 小 依赖 集 并 不 一 定 是 唯 
一 的 〈 参 考 练习 11. 12) 。 


11.7 小 结 


函数 依赖 是 一 个 关系 变量 中 的 两 个 属性 集 间 的 多 对 一 关系 。 给 定 关系 变量 R, A 和 B 是 R 的 
属性 集 的 子 集 ， 当 生 仅 当 对 于 R 的 任意 两 个 元 组 ， 如 果 A 相等 ， 则 B 必 相 等 ， 那 么 可 以 说 B 函 
数 依赖 于 4， 记 为 4 一 8B。 每 一 个 关系 变量 RR 一 定 满足 某 些 平凡 的 函数 依赖 。 当 且 仅 当 旺 数 依赖 
的 右边 (应 变量 ) 是 左边 〈 自 变量 ) 的 子 集 时 ,该 函数 依赖 为 平凡 的 函数 依赖 。 

一 个 函数 依赖 蕴涵 其 他 的 函数 依赖 。 给 定 一 个 函数 依赖 集 5，5 中 各 个 函数 所 蕴涵 的 函数 依 
赖 的 集合 成 为 $ 的 闭 包 ，, 记 为 5*。5’ 必然 是 5 的 超 集 。Armstrong 公理 系统 为 计算 5 的 闭 包 3 
提供 了 一 个 有 效 且 完 备 的 基础 理论 (然而 ， 事实 上 并 不 用 它 来 计算 )。 从 Armstrong 公理 系统 中 
可 以 导出 其 他 一 些 有 用 的 规则 。 

如 果 给 定 一 个 关系 变量 R 的 属性 集 的 子 集 Z 和 一 个 该 关系 变量 满足 的 函数 依赖 集 38， 那 么 Z 
关于 5 的 闭 包 Z* 是 及 的 属性 集 的 一 个 子 集 ， 对 于 该 子 集中 的 任意 一 个 属性 4， 函 数 依赖 Z 一 4 都 
成 立 。 如 果 Z' 包含 尺 的 所 有 属性 ， 则 Z 为 超 码 (如 果 超 码 不 可 约 ， 则 该 超 码 是 候选 码 )。 本 章 
介绍 了 一 种 计算 Z 关于 函数 依赖 集 5 的 闭 包 2 的 算法 ， 从 而 有 了 一 种 判断 给 定 的 函数 依赖 X 一 了 
是 否 是 8 的 成 员 的 简便 方法 : 当 且 仅 当 Y 是 X' 的 子 集 时 ，X-*Y 是 8 的 成 员 。 

当 且 仅 当 两 个 函数 依赖 集 51 和 52 相互 覆盖 时 ， 这 两 个 函数 依赖 集 等 价 ， 即 当 且 仅 当 51* = 
52' 时 ，S1 和 52 等 价 。 每 一 个 函数 依赖 集 至 少 等 价 于 一 个 最 小 函数 依赖 集 。 一 个 最 小 函数 依赖 
集 应 满足 以 下 三 个 条 件 : (a) 该 函数 依赖 集 的 每 一 个 函数 依赖 的 右边 只 有 一 个 属性 ; (b) 删除 
该 函数 依赖 集 的 任何 一 个 函数 依赖 都 将 改变 它 的 闭 包 ; (c) 删除 该 函数 依赖 集中 任意 一 个 函数 
依赖 左边 的 任意 一 个 属性 都 将 改变 该 集合 的 闭 包 。 如 果 7 是 $ 的 最 小 依赖 集 ， 则 实现 7 的 函数 依 
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赖 时 自动 实现 5 的 函数 依赖 。 

最 后 ， 应 该 注意 的 是 前 面 介绍 的 思想 不 仅仅 适用 于 函数 依赖 ， 还 适用 于 一 般 的 完整 性 约束 
条 件 : 

1) 一 些 约束 条 件 是 平凡 的 。 

2) 一 些 约束 条 件 蕴涵 其 他 约束 条 件 。 

3) 一 个 给 定 的 约 东 条 件 集合 所 蕴涵 的 约束 条 件 的 集合 可 以 认为 是 给 定 约束 条 件 集合 的 


4) 确定 一 个 约束 条 件 是 否 属于 一 个 闭 包 的 问题 一 一 即 该 约束 条 件 是 否 被 其 他 约 东 条 件 蕴 涵 
的 问题 一 一 是 个 有 趣 的 实际 问题 。 

5) 寻找 一 个 约束 条 件 集合 的 最 小 依赖 集 是 个 有 趣 的 实际 问题 。 

只 是 因为 有 一 套 有 效 且 完 备 的 公理 系统 才 使 得 函数 依赖 比 一 般 的 完整 性 约束 条 件 更 容易 处 
理 。 在 本 章 和 第 13 章 的 “参考 文献 ”部 分 给 出 了 一 些 参考 文献 ， 这 些 参考 文献 中 介绍 了 其 他 一 
些 约束 (“MVDs”、“JDs” 和 “INDs”) 对 这 些 约束 规则 ， 该 公理 系统 仍然 适用 。 本 书 不 再 像 介 
绍 函数 依赖 一 样 介绍 这 些 约束 条 件 。 
习题 
11.1 (a) 假设 RR 是 一 个 nn 目的 关系 变量 ,该 关系 变量 最 多 可 以 满足 多 少 个 函数 依赖 (包括 平凡 的 陆 数 
依赖 和 非 平凡 的 函数 依赖 )? (b) 函数 依赖 4B 中 的 4 和 B 均 为 属性 集合 ， 当 二 者 之 一 为 空 集 时 
会 发 生 什么 情况 ? 
什么 是 Armstrong 公理 系统 的 有 效 性 ， 什 么 是 Armstrong 公理 系统 的 完备 性 ? 
根据 函数 依赖 的 基本 定义 ， 证 明 自 反 律 、 增 广 律 和 传递 律 。 

证 明 习 题 11. 3 中 的 三 个 规则 蕴涵 自 含 规则 、 分 解 规 则 和 合并 规则 。 
证 明 Darwen 的 “通用 一 致 性 定理 ”， 在 证 明 时 运用 了 前 两 题 的 什么 规则 ?哪些 规则 可 以 看 作 是 该 
定理 的 特例 ? ， 
11.6 ”名词 解释 : (1) 函数 依赖 集 的 闭 包 ; (2) 属性 集 关 于 给 定 函 数 依赖 集 的 闭 包 。 
11.7 ” 列 出 关系 变量 SP 中 所 有 可 能 的 函数 依赖 。 
11.8 “关系 变量 R 14，B，C，D，E，F，G| 满足 下 列 函数 依赖 
A 一 日 
BC ~— DE 
AEF 二» G 
计算 14，C 关于 这 个 函数 依赖 集 的 闭 包 {4，C1 : ， 该 函数 依赖 集 是否 蕴 涵 函 数 依赖 4CF 一 DG? 
11.9 什么 情况 下 说 5S1 和 52 等 价 ? 
11.10 ”什么 是 最 小 函数 依赖 集 ? 
11.11 下 面 两 个 函数 依赖 集 等 价 吗 ? 


i.A—8 AB FC Do 有 aC DIE 
2. 员 一 BC 了 一 AE 


AB CC 
C —»A 
BC —»D 
ACD 一 8B 
BE 5C 


um 
np 


CE ~ FA 
CF 一 BD 
了 — EF 
找 出 该 函数 依赖 集 的 最 小 依赖 集 。 
11. 13 关系 变量 TIMETABLE 定义 了 如 下 属性 (字段 ) ; 
D 一 星期 中 的 每 一 天 (1 ~5) 
P 一 天 中 的 一 个 时 间 段 (1 ~8) 
C 教室 号 码 
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7 教师 姓名 


L 


课程 名 


当 且 仅 当 在 时 间 | D: d,P: p| 时， 教师 1 在 教室 c 教授 课程 1 时 元 组 和 D: d,P: p,C: c,T: 1,L: 中 才 在 关 
系 变量 中 出 现 。 可 以 假定 课程 持续 一 个 时 间 段 ， 一 个 星期 里 所 有 课程 的 名 称 唯 一 ， 那 么 在 该 关系 变 
量 中 存在 哪些 函数 依赖 ? 它 的 候选 码 有 上 哪些 ? 


11. 14 关系 变量 NADDR 定义 了 如 下 属性 (字段 ) : NAME (姓名 ,唯一 ) 、STREET (街道 ) 、CITY ( 城 
市 ) 、STATE ( 州 ) 和 ZIP (邮编 ) ， 对 于 给 定 的 邮政 编码 ， 只 有 唯一 的 州 和 城市 与 之 对 应 。 同 样 ， 
给 定 一 个 街道 、 城 市 和 州 ， 只 有 唯一 的 一 个 邮政 编码 和 它 对 应 。 给 出 该 关系 变量 的 -一 个 最 小 函数 依 
赖 集 和 它 的 候选 码 。 
11.15 上 题 中 的 假设 在 实践 中 有 效 吗 ? 
11.16 关系 变量 RI4,B,C,D,E,F,G, 叫 ,7 于 满 足下 列 函 数 依 赖 : 
ABD EE 
ap 6G 
B 全 了 
Cc -> 
Cy I 
G SH 
该 函数 依赖 集 是 最 小 依赖 集 吗 ? 给 出 该 关系 变量 的 候选 码 。 
参考 文献 
如 11. 1 节 中 提 到 的 ， 这 是 本 书 中 最 规范 化 的 一 章 ; 而 参考 文献 [11.1]、[11.3] 和 [11.10] 都 是 为 
多 方面 数据 库 理 论 提供 了 规范 化 处 理 的 书籍 (不 仅 是 函数 依赖 本 身 ) ， 所 以 似乎 把 它们 包含 在 这 里 较为 
合适 。 
[11.1] Serge Abiteboul, Richard Hull, and Victor Vianu: Foundations of DataBase. Reading, Mass. :Addison- 
Wesley( 1995 ). 
[11.2] W.W. Armstrong: “Dependency Structures of Data Base Relationships,” Proc. IFIP Congress, Stock- 
holm, Sweden (1974). 
该 文 第 一 次 用 形式 化 的 语言 描述 了 函数 依赖 ( 它 是 Armstrong 公理 系统 的 基础 ) ， 该 文 还 精 
确 描 述 了 候选 码 这 个 概念 。 
[11.3] Paolo Atzeni and Valeria De Antonelis: Relational Database Theory. Redwood City, Calif. : Benjamin/ 
Cummings( 1993 ) . 
[11.4] Marco A. Casanova, Ronald Fagin, and Christos H. Papadimitriou:“jnclusion Dependencies and Their 
Interaction with Functional Dependencies,” Proc. 1 st ACM SIGACT-SIGNIOD Symposium on Principles 
of Database Systems. Los Angeles, Calif. (March 1982). 
内 含 依赖 (inclusion dependencies, IND) 可 以 被 看 做 参照 完整 性 的 概括 ， 例 如 ， 内 含 关 数 
依赖 : 
SP.S# —»~ S.S# 
(和 和 参考 书 上 使 用 的 符号 不 同 ) 说 明 出 现在 关系 变量 SP 中 的 S# 的 集合 是 出 现在 关系 变量 S 
中 的 S# 的 集合 的 子 集 ， 这 个 例子 事实 上 就 是 参照 完整 性 ， 然 而 ， 内 含 依赖 并 不 要 求 它 的 左边 是 外 
码 或 它 的 右边 是 候选 码 。 注 意 ; 因为 内 含 依赖 和 普通 的 函数 依赖 一 样 是 反映 多 对 一 的 关系 ， 所 以 
它们 之 间 有 共同 点 ,但 是 内 含 依赖 往往 是 跨越 关系 的 ， 而 函数 依赖 则 是 存在 于 一 个 关系 变量 内 
部 的 。 
本 文 提供 了 一 套 完备 且 有 效 的 内 含 依赖 推理 规则 : 
1) 4 一 4。 
2) 如 果 4B-*CD， 则 4 一 C 且 8B-D。 
3) 如 果 4 一 了 B 且 BC， 则 4 一 C。 
[11.5] R G. Casey and C. Delobel: “Decomposition of a Data Base and the Theory of Boolean Switching Func- 


tions,” IBM J. RdD 17, No.5 (September 1973). 
本 文 指出 : 对 于 一 个 任意 给 定 的 关系 变量 ,该 关系 变量 所 满足 的 函数 依赖 (该 文中 称 为 函数 
关系 ) 集 可 以 表示 成 “布尔 转化 函数 ” ( boolean switching function) 的 形式 ， 而 且 这 种 函数 是 唯 
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[11.6] 


[11.7] 


[11.8] 


[11.9] 


形 三 部 分 载 握 茬 砷 于 


一 的 。 因 为 虽然 原来 的 函数 依赖 可 以 用 很 多 表面 上 看 起 来 不 同 但 实际 上 是 等 价 的 形式 表示 ， 每 种 
表示 形式 都 可 以 转化 成 一 个 表面 上 不 同 的 布尔 函数 一 一 但 这 些 函 数 可 以 利用 布尔 代数 规则 规约 成 
相同 的 规范 形式 ( 见 第 18 章 ) 。 所 以 ， 关 系 变量 的 分 解 问题 (无 损 分 解 ， 见 第 12 章 ) 就 和 众 所 
周知 的 布尔 代数 问题 一 一 寻找 和 原来 的 关系 变量 及 函数 依赖 相对 应 的 布尔 函数 的 “ 质 蕴 涵 的 最 小 
获 盖 ” (a covering set of prime implicants) 等 价 。 从 而 将 关系 变量 的 分 解 问题 转化 为 等 价 的 布 
尔 代数 问题 ， 人 们 就 可 以 运用 一 些 熟 悉 的 技术 来 解决 该 问题 。 

于 本 文 和 参考 文献 [11.8] 及 第 13 章 的 一 些 参 考 文献 最 先 对 函数 依赖 理论 和 其 他 理论 进行 了 
比较 。 
E. F. Codd:“Further Normalization of the Data Base Relational Model, ”in Randall J. Rustin (ed. ). Da- 
ia Base Systems, Courant Computer Science Symposia Series 6. Englewood Cliffs ，N. J. ， Prentice- Hall 
(1972). 

本 文 最 早 提出 了 郴 数 依赖 这 一 概念 〈IBM 的 内 部 备 忘 除外 ) 。 本 文 的 标题 中 的 “规范 化 ” 指 
的 是 第 12 章 介绍 的 数据 库 设计 规则 。 该 文 的 目的 是 论证 函数 依赖 这 一 概念 在 数据 库 设 计 中 的 适 
用 性 。 函 数 依赖 事实 上 是 对 数据 库 设 计 问题 的 第 一 次 科学 思考 ， 函 数 依赖 本 身 的 应 用 也 很 广泛 。 
Hugh Darwen:“The Role of Functional Dependence in Query Decomposition,” in C. J Date and Hugh 
Darwen, Relational Database Writings 1989 - 1991. Reading, Mass. : Addison- Wesley (1992 ) . 

本 文 介绍 了 一 个 推理 规则 集 ， 通 过 该 规则 集 ， 可 以 从 一 个 关系 变量 所 满足 的 函数 依赖 集中 推 
导出 任意 一 个 从 该 关系 变量 导出 的 关系 变量 所 能 满足 的 函数 依赖 集 。 通 过 这 些 函 数 依赖 集 就 可 以 
确定 由 原来 的 关系 变量 导出 的 关系 变量 的 候选 码 ， 这 就 是 第 9 章 和 第 10 章 偶尔 提 到 的 候选 码 推导 
规则 。 本 文 还 介绍 了 如 何 利 用 这 些 规则 来 显著 提高 DBMS 的 性 能 、 功 能 及 可 用 性 。 注 意 : 
SQL: 1999 标 准 中 已 经 使 用 了 这 些 规则 : (a) 标准 认为 视图 的 范围 可 更 新 ( 见 第 10 章 ); (b) 标 
准 对 表达 式 (例如 SELECT 子 句 中 ) 意义 的 理解 扩展 为 “每 组 单一 值 ”。 

SELECT S.S#, S.CITY, SUM ( SP.QTY ) AS TQ 

FROM Ss, SP 

WHERE 5S.S# = SP.S# 

GROUP BY S.S# ; 

依据 SQL: 1992 这 一 查询 是 非法 的 ， 因 为 S. CITY 出 现在 SELECT 子 句 ， 却 没有 在 GROUP 
BY 子 句 中 出 现 ; 但 是 在 SQL: 1999 中 它 是 合法 的 ， 因 为 SQL 能 够 理解 关系 变量 S 满足 函数 依赖 
S#—»CITY 。 

R. Fagin: “Functional Dependencies in a Relational Database and Propositional Logic,” IBM J. RdD 21, 
No. 6 (November 1977). 

本 文 认为 ，Armstrong 公理 系统 [11.2] 是 和 命题 逻辑 中 的 蕴涵 系统 严格 等 价 的 ， 即 本 文 在 
函数 依赖 和 命题 之 间 定 义 了 一 个 映射 ， 然 后 证 明 当 且 仅 当 与 函数 依赖 /相对 应 的 命题 是 与 函数 依 
赖 集 $ 相对 应 的 命题 集 的 逻辑 推论 时 ， 函 数 依赖 了 才 是 函数 依赖 集 5 的 推论 。 
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17, No. 2 (1978). 
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12.1 引言 
本 书 到 目前 为 止 一 直 使 用 供应 商 和 零件 数据 库 作 为 例子 ， 它 的 逻辑 设计 如 下 : 
Ss 1{ S#，SNRME，STRTUS，CITY } 
PRIMARY KEY { S# } 


P 1{ P#, PNAME, COLOR, WEIGHT, CIiTY } 
PRIMARY KEY { P# } 

SP { S#, P#, QTY } 
PRIMARY KEY { S#, P# } 


FOREIGN KEY { S# } REFERENCES S 
FOREIGN KEY { P# } REFERENCES P 


注意 : 正如 定义 中 所 暗示 的 ， 本 章 中 我 们 假设 关系 变量 总 有 特定 的 主 码 (直至 出 现 进一步 的 说 
明 ) 。 

现在 需要 考察 该 设计 的 正确 性 。 很 显然 ，S, P 和 SP 这 三 个 关系 变量 是 必需 的 ， 并 且 供 应 商 
的 地 址 (CITY) 属于 关系 变量 S， 零 件 的 颜色 (COLOR) 属于 关系 变量 P， 发 货 量 (QTY) 属 
于 关系 变量 SP。 那 么 我 们 是 通过 什么 了 解 这 些 内 容 昵 ? 通过 考察 改变 设计 的 方式 所 引起 的 变化 ， 
可 以 对 这 个 问题 有 所 了 解 。 例 如 ， 假 设 把 供应 商 的 地 址 从 供应 商 的 关系 变量 S 中 移 到 发 货 关系 变 
量 SP 中 (直觉 上 这 是 错误 的 ， 因 为 很 明显 ，“ 供 应 商 的 地 址 ”只 和 供应 商 有 关 ， 而 和 发 货 无 
关 )。 图 12-1 和 第 11 章 的 图 11-1 稍 有 不 同 ， 展 示 了 修订 过 的 发 货 关系 变量 的 一 个 实例 。 注 意 : 
为 了 和 原来 的 SP 相 区 分 ， 和 第 11 章 一 样 ， 把 修订 过 的 发 货 关 系 变 量 称 为 SCP。 

对 该 图 稍 作 研 究 就 可 以 看 出 其 中 的 不 足 ， 即 元 余 。 例 如 ， 
SCP 中 每 一 个 供应 商 S1 的 元 组 都 说 明 S1 居住 在 London ， 每 一 个 
供应 商 S2 的 元 组 都 说 明 S2 居住 在 Paris， 等 等 。 事 实 上 ， 一 个 供 
应 商 提供 几 种 零件 ， 就 有 几 个 元 组 存放 关于 他 的 地 址 信息 。 宛 余 
将 导致 许多 深层 次 的 问题 。 例 如 ， 修 改 后 有 可 能 在 一 个 元 组 中 供 
应 商 居住 在 London ， 而 在 另外 一 个 元 组 中 却 认为 同一 供应 商 居住 
在 Amsterdam9 ， 因 此 最 好 的 方法 或 许 是 “一 事 一 地 ”( 即 避免 元 
余 )。 规 范 化 的 主要 思想 实际 上 就 是 使 一 些 简单 概念 形式 化 ， 然 而 
在 数据 库 设计 中 ,“ 形 式 化 ”确实 具有 实际 应 用 价值 。 

当然 ， 就 像 在 第 6 章 所 看 到 的 一 样 ， 关 系 模型 所 涉及 的 关系 
值 都 是 规范 化 的 。 至 于 关系 变量 ， 只 要 它 的 合法 实例 是 规范 化 的 图 12-1 关系 变量 SCP 的 实例 
关系 ， 则 该 关系 变量 就 是 规范 化 的 ， 这 样 ， 关 系 模 型 所 涉及 的 关 
系 变 量 也 都 是 规范 化 的 。 也 就 是 说 ， 关 系 变 量 ( 和 关系 ) 总 是 属于 第 1 范式 (简称 1NF) 的 。 
换 句 话说 ， 规 范 化 和 1NF 的 意思 完全 一 样 ， 虽 然 “ 规 范 化 ” (normalized) 常常 用 来 表示 更 高 级 
别 的 标准 〈 典 型 的 是 第 三 范式 : 3NF) ， 后 一 种 用 法 比较 不 规范 ， 但 很 常见 。 





个 ”本章 及 下 一 章 需要 假设 关系 变量 的 谓词 非 完 全 强制 一 一 因为 如 果 它 们 是 完全 强制 的 ， 类 似 这 样 的 问题 就 不 可 能 
发 生 (在 一 些 元 组 中 更 新 供应 商 Si 的 城市 ， 而 另 一 些 元 组 不 更 新 是 不 可 能 的 ) 。 事 实 上 ， 可 以 这 样 认识 规范 化 
规则 : 它 帮 助 我 们 以 某 种 方式 构建 数据 库 ， 从 逻辑 上 能 够 比 其 他 方式 〈 如 设计 不 是 完全 规范 化 的 ) 容许 更 多 单 
个 元 组 更 新 。 如 果 设 计 是 完全 规范 化 的 ， 谓 词 将 比 其 他 方式 简单 ， 所 以 可 以 达到 这 一 目标 。 
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这 样 ， 根 据 前 面 的 说 法 ， 一 个 给 定 的 关系 变量 有 可 能 虽然 是 规范 化 的 ， 但 仍 具 有 一 些 不 受 欢 
迎 的 性 质 ， 关 系 变量 SCP 就 是 一 个 例子 (如 图 12-1 所 示 ) 。 进 一 步 规 范 化 理论 使 人 们 认识 这 些 
问题 ， 并 用 一 些 更 好 的 关系 变量 代替 原来 的 关系 变量 。 例 如 ， 在 关系 变量 SCP 中 ， 运 用 规范 化 
理论 可 以 知道 该 关系 变量 存在 一 些 什么 “毛病 ”， 并 知道 如 何 用 两 个 更 好 的 关系 变量 (一 个 含有 
属性 | S#，CITY} ， 另 一 个 含有 属性 | S#，P#，QTY} ) 来 代替 这 个 关系 变量 。 

1. 范式 

“进一步 规范 化 ”( further normalization) (在 下 文中 简写 为 “规范 化 ”) 过 程 是 建立 在 “ 范 
式 ” 这 一 概念 之 上 的 。 一 个 关系 变量 满足 某 一 个 范式 所 规定 的 一 系列 条 件 时 ， 它 就 属于 该 范式 。 
例如 ， 当 且 仅 当 一 个 关系 变量 属于 1NF,， 且 满足 将 在 12. 3 节 介 绍 的 条 件 时 ， 则 它 属于 第 2 范式 
(2NF) 。 

图 12-2 展示 了 一 些 范 式 及 它们 之 间 的 关系 。 前 三 个 范式 (1NF、2NF 和 3NF) 由 Codd 在 文 
献 [11.6] 中 定义 。 从 图 12-2 可 以 看 出 ， 所 有 的 规范 化 关系 变量 都 属于 INF， 有 一 些 属于 1NF 
的 关系 变量 还 属于 2NF， 一 些 属 于 2NF 的 关系 变量 还 属于 3NF。Codd 定义 这 些 范式 的 原因 是 ， 
他 认为 一 个 属于 2NF 的 关系 变量 比 一 个 只 属于 1NF 的 关系 变量 更 “好 ”; 同样 ， 一 个 属于 3NF 
的 关系 变量 比 一 个 只 属于 2NF 的 关系 变量 更 “好 ”。 因 此 ， 在 数据 库 设计 中 ， 一 般 应 设计 属于 
3NF 的 关系 变量 ， 而 不 是 设计 只 属于 1NF 或 2NF 的 关系 变量 。 

文献 [11.6] 中 还 介绍 了 过 程 化 思想 ， 即 所 谓 ws (normalized) 关系 变量 
的 规范 化 过 程 ， 通 过 它 可 以 用 一 系列 更 “好 ”的 关 
系 变 量 (如 属于 3NF 的 关系 变量 ) 代替 一 个 “不 3NF 关系 变量 
好 ”的 关系 变量 (如 只 属于 2NF 的 关系 变量 ) 。 当 BCNF 关系 变量 
然 该 过 程 最 初 定义 时 只 适用 到 3NF, 但 正如 下 一 章 
即将 看 到 的 ， 该 过 程 经 过 后 来 的 扩展 可 以 适用 到 
5NF。 该 过 程 可 以 归纳 为 : 通过 一 连 串 的 归 约 ， 把 一 
组 给 定 的 关系 变量 转化 为 一 些 更 “好 ”的 形式 。 应 
该 注意 的 是 该 过 程 是 “可 逆 ” 的 ， 即 总 可 以 把 该 过 
程 的 输出 (比方 说 属于 3NF 的 关系 变量 的 集合 ) 重 
新 映射 到 它 的 输入 〈 比方 说 最 初 属于 2NF 的 关系 变 
量 的 集合 ) 。 可 逆 性 很 重要 ， 因 为 它 意味 着 在 规范 化 图 12-2 不 同 级 别 的 范式 
过 程 中 没有 信息 丢失 。 

回 到 范式 这 个 主题 上 来 : 在 12.5 节 将 会 看 到 ，Codd 的 最 初 关于 3NF 的 定义 [11.6] 存在 
不 足 ，Boyce 和 Codd 一 起 ， 对 原来 的 3NF 作 了 一 些 修正 ， 提 出 了 更 加 严格 的 定义 [12.2] 一 一 
即 那些 属于 修正 后 3NF 的 关系 变量 必然 属于 原来 的 3NF, 但 是 一 些 属于 原来 的 3NF 的 关系 变量 
可 能 不 属于 修正 后 的 3NF。 为 了 和 原来 的 3NF 相 区 分 ， 把 修正 后 的 3NF 范式 称 为 Boyce/Codd 范 
式 (BCNF)。 

后 来 ，Fagin [12.8] 提出 了 第 四 范式 (4NF 一 一 之 所 以 称 为 “第 四 ”是 因为 那 时 BCNF 仍 
被 称 为 “第 三 ”)。 在 [12.9] 中 ，Fagin 还 定义 了 投影 = 连接 范式 (PJ/NF， 又 被 称 为 第 五 范式 
或 5NF) 。 如 图 12-2 所 示 ， 一些 属 于 BCNF 的 关系 变量 同时 也 属于 4NF， 而 一 些 属于 4NF 的 关系 
变量 同时 也 属于 5NF。 

现在 ,读者 也 许 会 问 : 该 过 程 是 否 有 终点 ?是 否 有 6NF、7NF 以 至 无 穷 的 范式 ? 虽然 这 是 一 
个 值得 一 提 的 问题 ， 但 本 书 不 打算 对 这 个 问题 作 详细 的 讨论 。 除 了 图 12-2 所 示 的 范式 外 ， 确 实 
存在 其 他 的 范式 , 但 是 ， 从 某 种 意义 上 说 ，5NF 是 “最 后 ”的 范式 。 这 一 问题 将 在 第 13 章 
讨论 。 

2. 本 章 结构 

本 章 主要 是 分 析 进 一 步 规范 化 概念 一 一 从 1NF 到 BCNF (另外 两 个 范式 在 第 13 章 分 析 ) ， 本 
章 安排 如 下 : 引言 之 后 ， 在 12. 2 节 讨 论 基本 概念 一 一 无 损 分 解 ， 并 证 明 函 数 依赖 对 这 个 概念 的 
重要 性 (事实 上 ， 函 数 依赖 构成 了 Codd 三 个 范式 ,包括 BCNF 范式 的 基础 )。12. 3 节 介 绍 前 三 
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个 范式 的 原型 ， 并 通过 例子 说 明 一 个 关系 变量 如 何 经 过 一 步 一 步 的 规范 化 而 最 终 成 为 3NF 的 关 
系 变量 。12. 4 节 介 绍 分 解 选择 (alternative decomposition) 即 如 果 存 在 多 种 分 解 方法 ， 如 何 选择 
最 “好 ”的 一 种 。 接 下 来 ,在 12.5 节 讨论 BCNF。12. 6 节 讲解 了 具有 关系 值 属性 的 关系 变量 。 
最 后 在 12.7 节 进行 总 结 并 提出 一 些 结论 性 评价 。 

希望 不 要 把 后 面 介 绍 的 内 容 教 条 化 ， 相 反 ， 在 实际 工作 中 要 在 很 大 程度 上 依靠 直觉 。 事 实 
上 ， 像 无 损 分 解 、BCNF 等 术语 虽然 有 些 深奥 ， 但 是 它们 应 该 是 简单 的 常识 。 一 些 参 考 文献 在 介 
绍 这 部 分 内 容 时 太 正 式 、 古 板 。 可 以 从 参考 文献 【12.5] 中 找到 较 好 的 学 习 材 料 。 

最 后 ， 给 出 两 个 指导 性 的 评论 : 

1) 前 面 已 经 提 到 ， 规范 化 的 主要 思想 是 : 数据 库 设 计 人 员 在 设计 数据 库 时 ， 他 所 设计 的 数 
据 库 的 关系 变量 应 该 是 属于 “最 终 ” 范 式 (5NF) 的 。 然 而 ,不 应 把 这 个 建议 当做 定 则 ， 因 为 
在 实际 工作 中 ,偶尔 会 有 很 多 理由 需要 忽略 规范 化 理论 ( 见 本 章 后 面 的 习题 12.7) 。 事 实 上 ， 这 
也 说 明 数 据 库 设 计 是 个 极其 复杂 的 工作 。 规 范 化 理论 是 很 有 用 的 ， 但 它 不 是 灵丹妙药 ; 因此 ， 任 
何 一 个 设计 数据 库 的 人 都 应 该 熟悉 规范 化 理论 ， 但 这 并 不 意味 着 必须 只 依据 这 个 理论 。 在 第 14 
章 将 讨论 数据 库 其 他 方面 的 设计 ， 这 些 设计 和 规范 化 理论 很 少 甚至 没有 联系 。 

2) 前 面 已 经 提 到 ， 本 章 将 把 规范 化 过 程 作为 介绍 和 讨论 不 同 范式 的 基础 。 然 而 ， 这 并 不 是 
说 实际 的 数据 库 设计 工作 一 定 是 运用 这 一 过 程 实现 的 ， 事 实 上 很 有 可 能 运用 将 在 第 14 章 介绍 的 
自 上 而 下 方案 ， 而 不 运用 本 章 介 绍 的 规范 化 过 程 。 规 范 化 思想 可 以 用 来 验证 设计 结果 是 否 在 无 意 
中 违反 了 规范 化 理论 。 然 而 ， 规 范 化 过 程 确实 为 描述 规范 化 理论 提供 了 一 个 方便 的 框架 。 本 章 为 
了 说 明 问题 ， 假 定 在 设计 过 程 中 采用 这 个 过 程 。 
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在 开始 具体 讨论 规范 化 过 程 之 前 ， 有 必要 仔细 分 析 这 一 过 程 的 一 个 重要 性 质 : 分 解 的 无 损 性 
(无 损 分 解 ) 。 规 范 化 过 程 涉及 把 一 个 关系 模式 分 解 成 几 个 关系 模式 ， 而 且 这 种 分 解 是 “可 道 “ 
的 ， 这 样 在 分 解 过 程 中 不 会 有 信息 丢失 。 也 就 是 说 ， 人 们 感 兴趣 的 是 没有 信息 丢失 的 分 解 。 从 后 
面 的 分 析 可 以 看 出 : 一 个 模式 分 解 是 否 是 无 损 的 这 个 问题 和 函数 依赖 密切 相关 。 

以 大 家 熟悉 的 关系 变量 5 为 例 ， 该 关系 变量 的 表 头 为 | 8#，STATUS，CITY}| (为 简单 起 
见 ， 忽 略 SNAME) 。 图 12-3 的 上 部 是 该 关系 变量 的 一 个 实例 (关系 ) ， 标 有 a 和 b 的 是 该 关系 的 
两 种 不 同 分 解 。 
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图 12-3 关系 变量 5 的 一 个 实例 及 相应 的 两 个 分 解 


仔细 分 析 这 两 种 分 解 ， 可 以 看 出 : 

1) 在 a 中 ， 没 有 任何 信息 丢失 。 从 SST 和 SC 的 值 仍旧 可 以 导出 供应 商 53 的 状态 是 30， 地 
址 是 Paris， 而 供应 商 55 的 状态 是 30， 地 址 是 Athens。 也 就 是 说 ， 该 分 解 确实 是 无 损 的 。 

2) 相反 ， 在 b 中 却 有 信息 丢失 ， 从 分 解 后 的 关系 中 还 是 可 以 导出 两 个 供应 商 的 状态 是 30， 
但 不 知道 供应 商 地 址 ， 即 第 二 个 分 解 不 是 无 损 的 ， 而 是 有 损 的 。 
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到 底 是 什么 原因 使 得 第 一 个 分 解 是 无 损 的 ， 而 第 二 个 分 解 是 有 损 的 呢 ? 通过 观察 ， 首 先 可 以 
发 现 ,“ 分 解 ” 过 程 实际 上 是 个 投影 过 程 ， 图 中 的 SST、SC 和 STC 都 是 原来 的 关系 变量 S 的 一 
个 投影 ， 所 以 规范 化 过 程 中 的 分 解 实际 上 就 是 投影 。 注 意 : 本 书 第 二 部 分 已 经 提 到 ， 人 们 经 常 说 
的 “SST 是 关系 变量 5 的 投影 "， 更 确切 地 说 ， 应 该 是 “关系 变量 SST 在 任何 时 候 的 值 都 是 关系 
变量 5 在 相应 时 间 的 值 的 投影 ”。 

第 二 ,“ 在 a 中 ,没有 任何 信息 丢失 ”是 指 SST 和 SC 经 过 自然 连接 可 以 得 到 原来 的 5。 相 
有 反 , 在 b 中 ，SST 和 STC 经 过 连接 却 不 能 得 到 原来 的 S， 所 以 说 在 分 解 b 中 丢失 了 信息 ”。 更 精 
确 地 说 ,“ 可 逆 ” 的 意思 就 是 原来 的 关系 变量 等 于 它 的 投影 的 连接 。 所 以 ， 就 像 规 范 化 过 程 中 的 
分 解 是 投影 操作 一 样 ,“ 重 组 ”(recomposition) 就 是 连接 操作 。 

有 一 个 有 意思 的 问题 : 如 果 R1 和 R2 是 关系 变量 R 的 投影 ， 量 R1 和 R2 属性 集 的 并 集 包含 R 
的 所 有 属性 ， 那 么 ，R1 和 R2 应 满足 什么 条 件 ， 才 能 保证 R1 和 R2 的 连接 能 得 到 原来 的 R? 这 就 
是 函数 依赖 的 用 武之 地 。 回 到 例子 中 来 ， 关 系 变 量 S 满足 最 小 函数 依赖 集 : 


S# 一 STATUS 

S# — CITY 

如 果 只 是 说 关系 变量 8 满足 这 些 函数 依赖 ， 还 不 能 说 明 为 什么 关系 变量 $ 和 它 的 投影 | 5#， 
STATUS 和 |S#，CITY| 的 连接 等 价 ， 事实 上 还 有 如 下 定理 (Heath 定理 [12.4] ) : 

s Heath 定理 : 假设 有 一 个 关系 变量 R14,B,C} ，4、B 和 C 是 属性 集 。 如 果 关 系 变量 尺 满 

足 函 数 依赖 4 一 B， 则 R 和 投影 {4，B| 、{A4，C| 的 连接 等 价 。 

把 4 看 做 9#， 把 互 看 做 STATUS， 把 C 看 做 CITY， 该 定理 就 可 以 证 明 关 系 变量 $ 可 以 无 损 
分 解 成 它 的 投影 |S#，STATUS| 和 {S#，CITY1。 同 时 我 们 知道 关系 变量 5 不 能 无 损 分解 成 它 
的 投影 1S#, STATUS| 和 {STATUS, CITY| 。Heath 定理 不 能 解释 为 什么 如 此 ”， 但是， 可 以 
直观 地 看 出 ， 在 后 面 的 分 解 中 丢失 一 个 函数 依赖 ， 即 在 后 一 个 分 解 中 虽然 仍然 满足 函数 依赖 S# 
一 STATUS ， 但 不 能 满足 函数 依赖 S#->CITY 。 

概括 一 下 ， 把 关系 变量 R 分 解 为 投影 R1,R2,…,Rn， 如 果 R 等 于 R1,R2,…,Rn 的 连接 ， 则 
我 们 可 以 说 分 解 是 无 损 的 。 注 意 ， 在 实际 操作 中 ， 我 们 通常 增加 额外 的 要 求 : RI1,R2,…,Rn 需要 
均 参 与 连接 ,这样 可 以 如 免 某 些 元 余 的 产生 。 例 如 ， 我 们 不 把 关系 变量 5 到 投影 1S#| 、 | 5#， 
STATUS| 和 |S#，CITY| 的 分 解 看 做 一 个 无 损 分 解 ， 尽管 $ 无 疑 等 于 这 三 个 投影 的 连接 。 为 
简单 起 见 ， 从 现在 开始 ， 除 非 有 明确 的 反面 说 明 ， 否 则 我 们 认为 这 一 额外 的 要 求 总 有 效 。 

进一步 了 解 函数 依赖 

下 面 以 一 些 关 于 函数 依赖 的 评论 结束 本 节 。 

1) 不 可 约 (irreducibility) ; 第 11 章 说 过 ， 一 个 左 部 不 可 约 的 函数 依赖 是 指 函 数 依赖 的 左边 
不 “ 太 大 ”。 例如，12. 1 节 的 关系 变量 SCP 满足 函数 依赖 : 


{ S#, Pt } — CITY 
然而 ， 属 性 P# 在 该 函数 依赖 的 左边 是 多 余 的 ， 也 就 是 说 ， 该 关系 变量 还 满足 函数 依赖 
S# — CITY 


( 即 CITY 还 函数 依赖 于 5#)。 后 一 个 函数 依赖 是 左 部 不 可 约 的 ， 但 前 面 那个 却 不 是 ， 即 CITY 不 
可 约 地 依赖 于 5#， 而 不 是 不 可 约 地 依赖 于 {5#，P#| 。 左 部 不 可 约 函 数 依赖 和 不 可 约 依赖 在 第 





外 ”详细 地 说 ， 我 们 得 到 原始 S 中 的 所 有 元 组 ， 以 及 一 些 额外 的 “虚假 ”元 组 ; 我 们 不 可 能 得 到 比 原始 S 更 小 的 集 
合 。( 练习 : 证 明 这 一 结论 。) 因为 我 们 通常 无 法 知道 结果 中 哪些 元 组 是 虚假 的 ， 哪 些 是 真实 的 ， 所 以 我 们 确实 
丢失 了 信息 。 

@ ”因为 Heath 定理 形 如 “ 当 …… 则 ……” 而 不 是 “ 当 且 仅 当 …… 则 ……”《〈 见 本 章 结尾 的 习题 12. 1) ， 所 以 它 不 能 
做 出 解释 。 我 们 将 在 第 13 章 13. 2 节 讨 论 Heath 定理 更 强 的 形式 。 

含 ”本 书 使 用 “ 左 部 不 可 约 函 数 依 赖 ” 和 “不 可 约 依赖 ”表示 通常 所 说 的 “完全 函数 依赖 ”和 “完全 依赖 ”( 本 书 
的 较 早 版 本 中 也 使 用 这 两 个 术语 ) 。 后 面 的 这 两 个 术语 虽然 简洁 ， 但 描述 性 和 准确 性 不 强 。 
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二 范式 和 第 三 范式 中 是 一 个 比较 重要 的 概念 见 12. 3 节 ) 。 

2) 函数 依赖 图 : 假设 R 是 关系 变量 , 1 是 的 不 可 约 的 晴 数 依赖 集 ，( 要 了 解 不 可 约 函 数 依 
赖 集 ， 可 参阅 第 11 章 ) 。 可 以 用 函数 依赖 图 方便 地 表达 函数 依赖 集 1， 图 12-4 给 出 了 关系 变量 
S、P 和 SP 的 函数 依赖 集 ， 在 本 章 的 后 面部 分 将 经 常 引用 该 图 。 











图 12-4 关系 变量 $、P 和 5P 的 函数 依赖 图 


可 以 看 出 ,图 12-4 的 每 一 个 箭头 都 是 从 相关 的 关系 变量 的 候选 码 (常常 是 主 码 ) 指出 。 根 
据 定义 ， 每 一 个 候选 码 都 有 箭头 指出 ”， 因 为 对 于 每 一 个 给 定 的 候选 码 的 值 ， 其 他 属性 都 有 一 个 
唯一 的 值 和 它 对 应 ， 所 以 这 些 箭 头 是 不 可 少 的 。 如 果 图 中 还 存在 其 他 的 第 头 ， 就 会 带 来 问题 。 所 
以 ， 不 严格 地 说 规范 化 过 程 就 是 消除 那些 不 是 从 候选 码 中 指出 的 箭头 。 

3) 函数 依赖 是 语义 上 的 概念 : 函数 依赖 是 一 种 特殊 的 完整 性 约束 条 件 ， 所 以 它们 也 是 一 个 
语义 上 的 概念 (事实 上 ， 它 们 是 关系 变量 谓词 的 一 部 分 )。 认 识 函 数 依赖 是 理解 数据 意义 过 程 的 
一 部 分 ， 例 如 ， 关 系 变量 9 满足 函数 依赖 5#CITY， 就 是 指 每 一 个 供应 商 的 地 址 是 唯一 的 。 还 
可 以 从 以 下 几 个 方面 理解 这 一 点 : 

s 在 现实 世界 中 存在 这 种 在 数据 库 中 体现 的 约束 条 件 ， 即 每 一 个 供应 商 的 地 址 是 唯一 的 。 

a 因为 这 些 约 东 是 现实 世界 的 语义 表述 的 一 部 分 ， 所 以 在 数据 库 中 应 该 遵守 。 

s 确保 遵守 这 些 约束 的 方法 是 在 数据 库 定 义 时 声明 这 些 约束 条 件 ， 这 样 DBMS 就 可 以 实现 

它们 。 

8 在 数据 库 中 声明 这 些 约束 条 件 的 方法 是 定义 函数 依赖 。 

从 后 面 的 介绍 中 可 以 发 现 ， 规 范 化 使 得 定义 函数 依赖 变 得 非常 简单 。 


12.3 第 一 、 第 二 和 第 三 范式 


注意 : 为 了 简单 起 见 ， 在 本 节 中 假定 每 个 关系 变量 只 含有 一 个 候选 码 ， 并 进一步 假定 该 候选 
码 为 主 码 ， 这 个 假定 在 不 太 严 格 的 定义 中 多 次 得 到 体现 。 含 有 多 个 候选 码 的 关系 变量 在 12.5 节 
讨论 。 

现在 开始 介绍 Codd 的 三 个 范式 。 为 了 说 明 问 题 ， 首 先 给 出 一 个 初步 的 、 很 不 规范 的 3NF 的 
定义 ,然后 讨论 把 任意 一 个 关系 变量 转化 成 一 个 3NF 的 关系 变量 集 的 过 程 ， 最 后 给 出 这 三 个 范 
式 的 精确 定义 。 然 而 可 以 发 现 ，1NF、2NF 和 3NF 除了 是 BCNF 及 其 他 范式 的 基础 外 ， 本 身 的 意 
义 并 不 大 。 

下 面 是 3NF 的 初步 定义 ， 

s 第 三 范式 (非常 不 正式 ) : 当 且 仅 当 关 系 变量 的 非 码 属性 满足 下 列 条 件 时 ， 该 关系 变量 是 

属于 3NF 的 : 

a) 相互 独立 。 

b) 不 可 约 依赖 于 主 码 。 

关于 “ 非 码 属性 ”和 “相互 独立 ”的 解释 如 下 : 

a 一 个 “ 非 码 属性 ”是 指 不 属于 所 讨论 的 关系 变量 的 主 码 的 属性 。 





他 ”更 准确 地 说 ， 超 码 中 总 有 箭头 指出 。 如 果 函 数 依赖 集合 ! 按 规定 不 可 约 ， 那 么 了 中 的 所 有 函数 依赖 〈 或 “ 生 
头 ”) 是 左 部 不 可 约 的 。 
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s 两 个 或 多 个 属性 “相互 独立 ”是 指 其 中 的 任何 一 个 属性 都 不 函数 依赖 于 其 他 属性 的 组 合 。 
这 种 独立 性 意味 着 其 中 的 任何 一 个 属性 都 可 以 独立 地 被 修改 。 
作为 例子 ,根据 前 面 的 定义 ， 关 系 变量 P 是 属于 3NF 的 。 属 性 PNAME、COLOR、WEIGHT 
和 CITY 是 相互 独立 的 (可 以 更 新 其 中 的 任何 一 个 属性 如 COLOR 而 不 必 同 时 改变 其 他 属性 ， 如 
WEIGHT) ， 并 且 这 些 属性 都 不 可 约 依赖 于 主 码 |P#} 。 
上 述 关 于 3NF 的 定义 可 以 用 下 面 的 更 不 正式 的 定义 解释 : 
s 第 三 范式 (更 不 正式 ) : 一 个 关系 变量 ， 当 且 仅 当 在 任何 时 候 它 的 每 一 个 元 组 都 含有 一 个 
主 码 来 识别 实体 ， 同 时 有 一 组 零 个 或 更 多 的 相互 独立 的 属性 从 不 同方 面 描述 这 个 实体 时 ， 
该 关系 变量 是 属于 3NF 的 。 
同样 ， 关 系 变 量 PP 符合 这 个 定义 : P 中 的 每 个 元 组 有 一 个 主 码 值 (零件 号 码 ) 来 识别 现实 
世界 的 某 个 零件 ， 同 时 有 四 个 不 同 的 属性 (零件 名 称 、 零 件 重量 、 零 件 颜色 和 零件 产地 ) ， 它 们 
都 用 来 描述 零件 ， 且 各 自 独立 于 其 他 属性 。 
现在 ， 回 到 规范 化 过 程 上 上 来， 首先 介绍 第 一 范式 的 定义 : 
e 第 一 范式 : 当 且 仅 当 一 个 关系 变量 的 所 有 合法 的 值 中 ， 每 一 个 元 组 的 每 个 属性 只 含有 一 个 
值 时 ， 该 关系 变量 属于 1NF。 
该 定义 只 是 说 明 所 有 的 关系 变量 都 是 属于 1NF 的 ， 这 当然 正确 。 然 而 ， 如 果 一 个 关系 变量 
只 属于 第 一 范式 ( 即 是 1NF 关系 变量 而 不 是 2NF 关系 变量 ， 更 不 是 3NEF 关系 变量 ) ， 则 有 很 多 
理由 认为 它 不 是 一 个 “好 ”的 结构 。 为 了 说 明 这 个 问题 ， 假 设 把 关于 供应 商 和 发 货 的 信息 合 在 
一 起 形成 一 个 新 的 关系 变量 FRST， 而 不 是 把 它们 分 开 来 形成 两 个 关系 变量 9 和 SP， 关系 变量 
SCP 的 定义 如 下 : 


FIRST { S#, STATUS, CITY, P#, QTY } 
PRIMARY KEY { S#, P# } 


该 关系 变量 是 12. 1 节 的 SCP 的 扩展 。 除 了 为 了 说 明 问 题 而 引进 的 附加 的 约束 条 件 


CITY 一 STATUS 


外 ， 每 一 个 属性 都 和 原来 的 意义 一 样 。STATUS 函数 依赖 于 CITY， 表 示 供 应 商 的 状态 由 它 的 地 
址 决定 ， 如 每 一 个 居住 在 London 的 供应 商 的 状态 是 20。 同 时 ， 为 了 简单 起 见 ， 省 略 了 SNAME。 
FIRST 的 主 码 是 |S#，P#| ， 函 数 依赖 图 见 图 12-5。 

可 以 看 出 ， 该 关系 变量 的 函数 依赖 图 比 属 于 3NF 的 关系 变 
量 的 函数 依赖 图 复杂 ， 一 个 3NF 关系 变量 的 函数 依赖 图 中 只 有 [s+ | 
从 候选 码 中 出 来 的 箭头 ， 而 一 个 非 3NF 关系 变量 (如 FIRST) | ov 
的 函数 依赖 图 除了 从 候选 码 出 来 的 箭头 外 ， 还 有 其 他 篆 头 一 一 
正 是 这 些 箭头 造成 了 麻烦 。 实 际 上 ， 关 系 变量 FIRST 同时 违反 
了 前 面 关于 3NF 定义 中 的 条 件 a 和 b: 非 码 属性 不 是 相互 独立 图 12.5 关系 变量 FIRST 的 
的 ， 因 为 STATUS 依赖 于 CITY (新 增加 的 箭头 ) ， 并 且 非 码 属 ”函数 依赖 图 
性 不 是 不 可 约 依赖 于 主 码 ， 因 为 STATUS 和 CITY 都 只 依 束 
于 S#。 

为 了 说 明 多 余 箭头 所 带 来 的 麻烦 ， 图 12-6 列 出 了 关系 变量 FIRST 的 一 个 实例 。 为 了 和 新 增 
加 的 约束 条 件 (CITY 决定 STATUS) 保持 一 致 ， 把 供应 商 53 的 STATUS 由 30 改 为 10， 其 他 属 
性 的 值 和 原来 的 一 样 。 图 中 的 元 余 是 很 明显 的 。 例 如 每 一 个 51 的 元 组 的 CITY 都 是 London， 而 
每 一 个 CITY 是 London 的 元 组 的 STATUS 都 是 20。 

FIRST 中 的 元 余 会 造成 一 系列 的 更 新 异常 ， 即 由 INSERT (插入 ) 、DELETE (删除 ) 和 UP- 
DATE (修改 ) 等 更 新 操作 所 造成 的 异常 。 首 先 看 和 函数 依赖 5#-CITY 相对 应 的 供应 商 - 地 址 
间 的 宛 余 ， 在 进行 更 新 操作 时 都 会 出 现 问题 : 

ma INSERT (插入 ) : 不 能 插入 一 个 居住 在 某 个 城市 却 没有 零件 供应 的 供应 商 ， 事 实 上 ， 在 

图 12-6 中 就 没有 居住 在 Athens 的 供应 商 55， 其 原因 是 ， 除 非 55 至 少 供应 一 种 零件 ， 否 
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则 没有 合适 的 主 码 (和 10.4 节 一 样 ， 本 章 假定 主 码 的 属性 没有 默认 值 ， 进 一 步 的 讨论 参 
见 第 19 章 ) 。 
DELETE (删除 ) :删除 FIRST 中 的 某 个 供应 商 的 
元 组 时 ， 不 仅 删除 了 这 个 供应 商 的 某 种 零件 的 发 |S™ LS |STATUS 
货 ， 而 且 有 可 能 把 该 供应 商 的 其 他 信息 ( 如 地 址 ) 
丢失 。 例如， 把 图 12-6 中 主 码 是 | 53，P2| 的 元 
组 删除 ， 则 关于 53 的 地 址 是 Paris 的 信息 就 丢失 
了 (INSERT 和 DELETE 问题 事实 上 就 像 一 枚 硬 
币 的 两 面 ) 。 

注意 ; 引起 这 些 问题 的 关键 是 FIRST 把 太 多 的 信息 绑 
在 一 起 ， 当 从 中 删除 一 个 元 组 时 ， 会 删除 太 多 信息 。 更 精 
确 地 说 ，FIRST 中 同时 包含 了 有 关 供 应 商 的 信息 和 有 关 发 
货 的 信息 ， 当 删除 有 关 发 货 的 信息 时 ， 同 时 也 删除 了 有 关 。 图 12-6 关系 变量 FIRST 的 实例 
供应 商 的 信息 。 解 决 这 个 问题 的 方法 当然 是 “分 解 ”一 一 
即 把 发 货 的 信息 放 在 一 个 关系 变量 中 ， 而 把 有 关 供 应 商 的 信息 放 在 另 一 个 关系 变量 中 。 这 样 ， 就 可 
以 把 规范 化 过 程 概括 为 “分 解 ”过 程 ， 即 把 逻辑 上 独立 的 信息 放 在 独立 的 关系 变量 中 。 

ma UPDATE (更 新 ) : 一般 来 讲 ， 给 定 供应 商 的 地 址 在 FIRST 中 会 出 现 多 次 ， 这 就 会 给 更 新 

带 来 困难 。 例 如 ， 如 果 供 应 商 51 从 London 搬 到 Amsterdam， 这 时 ， 我 们 就 面临 这 样 的 先 

择 ; 要 么 找 出 FIRST 中 所 有 和 供应 商 5S1 有 关 的 元 组 ， 并 把 地 址 改 为 Amsterdam ， 要 人 么 就 

保留 一 个 可 能 不 一 致 的 结果 ( 51 的 地 址 有 可 能 在 一 个 元 组 里 是 Amsterdam， 而 在 另 一 个 

元 组 里 是 London) 。 

解决 这 些 问题 的 方法 前 面 已 经 提 到 ， 就 是 用 关系 变量 : 


SECOND { S#, STATUS, CITY } 








和 


SP { S#, P#, QTY } 


代替 原来 的 关系 变量 FIRST。 

关系 变量 SECOND、SP 的 函数 依赖 图 见 图 12-7， 这 两 个 关系 变量 的 实例 见 图 12-8。 可 以 看 
出 ， 供 应 商 55 的 信息 已 被 包含 在 内 (只 在 关系 变量 SECOND 中 ， 在 关系 变量 SP 中 却 没有 ) ， 而 
关系 变量 SP 和 往常 的 发 货 关 系 变量 已 完全 一 样 。 


No counterpart in Fig. 12.6 








图 12-7 关系 变量 SECOND 和 SP 的 函数 依赖 图 图 12-8 关系 变量 SECOND 和 SP 的 实例 


应 该 清楚 ， 修 改过 的 结构 克服 了 前 面 描述 的 所 有 与 更 新 操作 有 关 的 问题 : 

sm INSERT ( 插 人 ): 即使 55 当前 没有 供应 一 种 零件 ,通过 把 合适 的 元 组 插入 关系 变量 
SECOND 中 ， 也 可 以 插入 居住 在 Athens 的 供应 商 55 的 信息 。 

s DELETE (删除 ) : 可 以 在 关系 变量 SP 中 删除 有 关 53 和 P2 的 元 组 ， 却 不 会 丢失 53 的 地 
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址 是 Paris 的 信息 。 
wm UPDATE (更 新 ) : 在 修改 过 的 结构 中 ， 给 定 供 应 商 的 地 址 只 出 现 一 次 ， 而 不 是 多 次 ， 因 
为 在 关系 变量 SECOND ( 主 码 是 5#) 加入 供应 商 只 4 有 一 个 元 组 。 也 就 是 说 ，5#-CIT- 
Y 间 的 元 余 已 被 消除 。 在 SECOND 元 组 中 对 $1 的 地 址 作 一 次 修改 ， 就 可 以 把 51 的 地 址 
由 London 改 为 Amsterdam 。 
比较 图 12-5 和 图 12-7 可 以 看 出 ， 将 关系 变量 FIRST 分 解 为 SECOND 和 SP 的 作用 是 消除 非 
不 可 约 依赖 ， 也 正 是 消除 了 这 些 非 不 可 约 依赖 才 解 决 了 前 面 描述 的 问题 。 也 可 以 说 ， 在 关系 变量 
FIRST 中 ， 属 性 CITY 描述 的 不 是 由 主 码 所 确定 的 实体 的 信息 ， 即 发 货 ， 而 是 和 发 货 有 关 的 供应 
商 〈 当 然 ， 属 性 STATUS 也 是 如 此 ) 的 信息 。 正 是 把 这 两 种 信息 混在 一 起 才 导 致 了 前 面 的 问题 。 
下 面 给 出 第 二 范式 的 定义 9 : 
s 第 二 范式 (假定 只 有 一 个 候选 码 ， 且 该 候选 码 是 主 码 ): 当 且 仅 当 一 个 关系 变量 属于 
1NF， 且 该 关系 变量 的 每 一 个 非 码 属性 都 不 可 约 依 赖 于 主 码 时 ， 该 关系 变量 属于 2NF。 
关系 变量 SECOND 和 SP 都 是 2NF 的 ( 主 码 分 别 是 15#} 和 |S#，P#|} ) 。 关 系 变量 FIRST 
不 是 属于 2NF 的 ， 一 个 属于 1NF 但 不 属于 2NF 的 关系 变量 总 是 可 以 归 约 成 与 之 等 价 的 2NEF 的 关 
系 变量 的 集合 。 这 个 归 约 过 程 包括 用 适当 的 投影 替代 原来 的 关系 变量 ， 因 为 这 些 投 影 经 过 连接 可 
以 得 到 原来 的 关系 变量 ， 所 以 这 些 投影 和 原来 的 关系 变量 是 等 价 的 。 在 我 们 的 例子 中 ， 关 系 变量 
SECOND 和 SP 是 FIRST 的 投影 了 ， 而 FIRST 是 SECOND 和 SP 的 自然 连接 。 
规范 化 过 程 的 第 一 步 可 以 归纳 为 利用 投影 消除 “ 非 不 可 约 的 ”函数 依赖 ， 即 给 定 如 下 关系 
变量 : 
R{A,B,c,pD 


} 
PRIMARY KEY { A, B } 
/* assume A ~ D holds */ 


根据 规范 化 理论 ， 可 以 用 下 列 两 个 关系 变量 替代 原来 的 关系 变量 : 


RI1 { A,D} 
PRIMARY KEY { A } 


R2 {A,B,C} 
PRIMARY KEY { A, B } 
FOREIGN KEY { A } REFERENCES R1 


利用 外 码 - 主 码 的 连接 可 以 从 RI 和 Re2 重新 得 到 R。 
回 到 前 面 的 例子 ，SECOND- SP 结构 仍然 存在 问题 。SP 是 符合 要 求 的 ， 事 实 上 ，SP 已 经 是 
3NF 了 ,在 本 节 可 以 忽略 。 但 是 ，SECOND 因 非 码 属性 间 缺 乏 独立 性 ， 仍 然 会 产生 问题 。SEC- 
OND 的 函数 依赖 图 仍然 比 3NF 保留 关系 变量 复杂 ， 更 确切 地 说 ，STATUS 依赖 于 S# 虽 然 是 不 可 
约 依 赖 ， 但 是 它 是 不 可 约 的 传递 函数 依赖 〈 通 过 CITY) : 每 一 个 $# 决 定 一 个 CITY， 而 每 一 
CITY 决定 一 个 STATUS。 一般 来 说 ， 就 像 第 11 章 介 绍 的 那样 ， 只 要 4 一 B 和 8--*C 都 能 满足 ， 
则 必 有 传递 函数 依赖 4->*C。 而 传递 依赖 一 样 也 会 造成 更 新 异常 (现在 把 注意 力 集中 在 和 函数 
依赖 CITY->STATUS 相关 的 CITY- STATUS 的 宛 余 上 ) 。 
ea INSERT (插入 ) : 不 能 插入 一 个 没有 供应 商 却 具有 状态 的 地 址 一 一 即 不 能 插入 这 样 的 信 
息 : 任何 居住 在 Rome (CITY) 的 供应 商 的 状态 (STATUS) 为 50， 除非 已 经 有 一 个 居住 
在 Rome 的 供应 商 。 

s DELETE (删除 ) ， 当 在 SECOND 中 删除 与 某 一 城市 有 关 的 元 组 时 ， 不 仅 删 除了 与 该 城市 
有 关 的 供应 商 的 信息 ， 而 且 删 除了 与 该 城市 有 关 的 状态 (STATUS) 信息 。 例 如 ， 在 
SECOND 中 删除 S5 的 元 组 ， 则 同时 丢失 Athens 的 状态 是 30 的 信息 (同样 ，DELETE 





四 ”严格 地 说 ， 定 义 第 二 范式 只 需要 考虑 特定 的 依赖 集合 ， 但 在 非 正式 的 讨论 中 通常 忽略 这 一 点 。 除 第 一 范式 外 ， 
其 他 范式 均 使 用 类 似 的 形式 定义 。 

@ 除了 一 点 : SECOND 可 以 包含 像 图 12-8 中 供应 商 $5 那样 的 元 组 ， 而 FIRST 中 没有 相对 应 的 部 分 ; 换 句 话说， 
新 的 结构 能 够 表达 前 面 结构 不 能 表达 的 信息 。 在 这 个 意义 上 说 ， 新 的 结构 更 符合 实际 情况 。 
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(删除 ) 和 INSERT (插入 ) 像 是 同一 枚 硬币 的 两 面 ) 。 
注意 : 这 个 问题 同样 是 由 于 “捆绑 ”， 即 关系 变量 SECOND 中 同时 含有 与 供应 商 和 城市 有 关 
的 信息 。 同样 ， 解 决 这 些 问题 的 方法 是 “分 解 ”， 即 把 供应 商 的 信息 放 在 一 个 关系 变量 中 ， 而 把 
关于 城市 的 信息 放 在 另外 一 个 关系 变量 中 。 
me UPDATE (更 新 ) : 某 一 城市 的 状态 在 SECOND 中 有 可 能 出 现 多 次 (该 关系 变量 仍 存在 
元 余 )。 因 此 ， 如 果 要 把 London 的 状态 由 20 改 为 30， 则 同样 面临 这 样 的 选择 : 要么 在 
SECOND 中 查找 所 有 与 London 有关 的 元 组 ， 并 把 状态 (STATUS) 由 20 改 为 30; 要 么 得 
到 一 个 有 可 能 不 一 致 的 结果 (在 一 个 元 组 中 London 的 状态 是 20 ， 而 在 另 一 个 元 组 中 Lon- 
don 的 状态 是 30) 。 
再 一 次 用 投影 代替 原来 的 关系 变量 (本 例 中 是 SECOND ) 以 解决 这 些 问题 ， 即 用 投影 ; 


SC { S#, CITY } 

CS { CITY, STATUS } 
代替 SECOND | S#，CITY，STATUS} 。 关 系 变量 SC 和 CS 的 函数 依赖 图 见 图 12-9， 图 12-10 是 
这 两 个 关系 变量 的 一 个 实例 。 同 样 ， 这 种 归 约 是 可 逆 的 ， 因 为 SECOND 是 SC 和 CS 通过 CITY 
的 自然 连接 。 





[st 图 12 .8 中 没有 副本 
图 12-9 关系 变量 SC 和 CS 的 函数 依赖 图 图 12-10 关系 变量 SC 和 CS 的 实例 


同样 应 该 清楚 ， 这 种 修订 过 的 结构 克服 了 前 面 描述 的 更 新 问题 (该 问题 的 具体 讨论 作为 练 
习 ) 。 比 较 图 12-7 和 图 12-9， 可 以 看 出 进一步 分 解 的 作用 是 消除 STATUS 对 5# 的 传递 上 顺 数 依赖 ， 
也 正 是 消除 了 这 种 传递 函数 依赖 才 解 决 了 更 新 异常 问题 。 直 观 地 说 ， 在 关系 变量 SECOND 中 ， 
属性 STATUS 所 描述 的 并 不 是 由 主 码 所 标识 的 实体 ， 即 供应 商 的 信息 ， 而 是 供应 商 的 地 址 信息 。 
同样 ， 把 这 两 种 信息 放 在 同一 关系 变量 中 会 带 来 问题 。 

下 面 给 出 第 三 范式 的 定义 : 

a 第 三 范式 (假定 关系 变量 只 有 一 个 候选 码 ， 且 该 候选 码 是 主 码 ) : 当 且 仅 当 一 个 关系 变量 

属于 2NF 且 该 关系 变量 的 所 有 非 码 属性 都 不 传递 依赖 于 主 码 时 ， 该 关系 变量 属于 3NF。 
注意 :“ 不 传递 依赖 ”蕴涵 不 互相 依赖 ， 从 这 个 意义 上 说 ， 该 术语 的 解释 和 本 节 开 始 的 解 
释 一 样 。 

关系 变量 SC 和 CS 都 属于 3NF (它们 的 主 码 分 别 是 .1 5#} 和 |CITY| ) 。 关 系 变量 SECOND 
不 属于 3NF。 一 个 属于 2NF 但 不 属于 3NF 的 关系 变量 总 是 可 以 归 约 成 一 些 属于 3NF 的 关系 变量 
的 集合 。 前 面 已 经 提 到 ， 这 种 归 约 是 可 逆 的 ， 即 在 归 约 中 是 没有 信息 丢失 的 ， 然 而 归 约 后 的 3NF 
关系 变量 集中 含有 一 些 在 原来 的 2NF 关系 变量 中 不 能 描述 的 信息 ”， 如 Rome 的 状态 是 50。 

规范 化 过 程 的 第 二 芗 可 以 归纳 为 利用 投影 消除 非 码 属性 间 的 传递 函数 依赖 ， 也 就 是 说 ， 给 定 
关系 变量 ， 

R{A, BC } 


PRIMARY KEY { A} 
/* assume B + C holds */ 


/* 假定 满足 函数 依赖 日 一 */ 





G@ 由 此 得 出 结论 ， 正 如 SECOND-SP 结合 能 比 第 一 范式 关系 变量 FIRST 更 好 地 表达 现实 世界 ，SC-CS 结合 比 第 二 
范式 关系 变量 SECOND 能 更 好 地 表达 现实 世界 。 
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根据 规范 化 理论 ， 用 如 下 两 个 关系 变量 RI 、R2 替代 原来 的 关系 变量 R: 


R11 {B,C} 
PRIMARY KEY { B } 


R2 {a,8} 


PRIMARY KEY { A } 
FOREIGN KEY { B } REFERENCES RI1 


利用 外 码 和 主 码 相 匹 配 机 制 ， 通 过 连接 RI 和 R2 可 以 重新 得 到 R。 

最 后 应 该 强调 一 点 ， 一 个 给 定 关 系 变量 的 规范 化 级 别 是 语义 问题 ， 而 不 仅仅 是 与 关系 变量 在 
某 一 特定 时 间 的 值 有 关 的 问题 。 也 就 是 说 ， 不 能 只 观察 一 个 关系 变量 的 一 些 实际 值 就 判断 该 关系 
变量 是 否 属于 (比如 ) 3NF， 而 必须 通过 了 解数 据 的 意义 ， 如 函数 依赖 等 才能 做 出 判断 。 还 应 该 
注意 的 是 ， 即 使 知道 这 些 函 数 依赖 ， 也 不 能 通过 分 析 一 些 给 定 的 数据 就 判断 该 变 挤 是否 属于 
3NEF， 通 过 这 些 具体 的 数据 最 多 只 能 判断 所 讨论 的 数据 是 否 违反 了 这 些 函 数 依赖 ， 如 果 没 有 违 
反 ， 则 这 些 数据 和 该 关系 变量 属于 3NF 的 假设 是 一 致 的 ， 当 然 ， 这 不 能 保证 这 种 假设 是 正确 的 。 


12. 4 保持 函数 依赖 
在 归 约 过 程 中 ， 常 常会 出 现 这 样 的 问题 ， 即 一 个 给 定 的 关系 变量 可 以 有 不 同 的 无 损 分 解 方 


法 。 还 是 以 12. 3 节 的 关系 变量 SECOND 为 例 ， 该 关系 变量 满足 函 
数 依赖 S# >CITY 和 CITY 一 STATUS 及 传递 函数 依赖 S#_、STATUS [3 站 
(参考 图 12-11 ， 该 图 中 传递 函数 依赖 以 虚线 箭头 表示 ) 。12. 3 节 的 


分 析 表 明 ， 该 关系 变量 的 更 新 异常 可 以 通过 模式 分 解 把 它 分 解 成 下 


面 两 个 属于 3NF 的 关系 变量 得 到 解决 : 图 12-11 关系 变量 SECND 
的 函数 依赖 图 


SC { S#, CITY } 
Cs { CITY, STATUS } 


假设 把 这 种 分 解 叫 作 “ 分 解 4”。 同 样 还 有 另外 一 种 分 解 (“分 解 B”) : 

SC { S#, CITY } 

SS { S#, STATUS } 

在 这 两 种 分 解 中 ， 投 影 SC 是 一 样 的 。 分 解 B 也 是 无 损 的 ， 而 且 它 的 两 个 投影 都 属于 3NF， 
但 有 许多 原因 可 以 认为 分 解 B 不 如 分 解 4“ 好 ”。 例 如 在 分 解 B 中 ， 还 是 不 能 插入 某 个 城市 具有 
某 种 状态 的 信息 ， 除 非 恰好 有 一 个 供应 商 居住 在 这 个 城市 。 

下 面 仔细 分 析 这 个 例子 。 首 先 应 该 注意 ,分解 4 的 投影 和 图 12-11 的 实 第 头 相 符 ， 而 分 解 B 
中 的 -一 个 投影 和 图 12-11 的 虚 箭头 相符 。 事 实 上 ， 在 分 解 4 中 的 两 个 投影 是 相互 独立 的 ， 只 要 对 
某 个 投影 的 更 新 在 上 下 文 是 合法 的 一 一 只 要 不 违反 所 更 新 投影 的 主 码 唯 一 性 约束 条 件 ， 它 们 就 可 
以 单独 更 新 而 不 用 考虑 其 他 投影 了 ,这样 ， 更 新 后 的 投影 经 过 连接 仍 能 得 到 合法 的 SECOND ( 即 
连接 不 会 违反 SECOND 的 函数 依赖 )。 相 反 ， 在 分 解 B 中 ,为 了 保证 不 违反 函数 依赖 CITY 一 、 
STATUS ( 如果 两 个 供应 商 的 城市 一 样 ， 则 它们 的 状态 必须 一 样 )， 更 新 其 中 任何 一 个 投影 时 都 
要 对 两 个 投影 实行 监控 (考虑 把 供应 商 5S1 的 城市 由 London 改 为 Paris 应 做 哪些 更 新 ) 。 也 就 是 
说 ， 在 分 解 B 中 ， 两 个 投影 不 是 相互 独立 的 。 

在 分 解 妃 中， 这 个 问题 的 关键 是 函数 依赖 CITY 一 STATUS 变 成 了 一 个 跨越 两 个 关系 变量 的 
数据 库 约 束 条 件 (参见 第 9 章 ) ， 这 意味 着 在 今天 的 一 些 产品 中 必须 用 过 程 来 维护 。 相 反 ， 在 分 
解 4 中 是 传递 函数 依赖 S#->STATUS 成 了 数据 库 约 东 条件 ， 而 这 种 数据 库 约束 条 件 只 要 S# 一 
CITY 和 CITY 一 STATUS 这 两 个 关系 变量 级 的 约束 条 件 实现 后 就 会 自动 实现 ， 而 要 实现 这 两 个 关 
系 变量 级 的 约束 条 件 是 非常 容易 的 ， 只 要 实现 相应 的 主 码 唯一 性 约束 条 件 即 可 。 

投影 独立 性 概念 为 从 可 能 存在 的 多 种 分 解 方 法 中 选择 一 个 合适 的 分 解 提供 了 一 个 准则 。 具 体 





G@ 除了 SC 到 CS 的 参照 约束 。 
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地 说 ， 一 个 投影 相互 独立 的 分 解 比 相互 不 独立 的 分 解 “ 好 ” 。Rissanen 在 参考 文献 [12.6] 中 介 
绍 了 判断 关系 变量 R 的 两 个 投影 RI 和 R2 是 否 相互 独立 的 方法 ， 指 出 当 且 仅 当 满足 下 列 条 件 时 ， 
RL 和 R2 相互 独立 : 

s 刃 中 的 所 有 函数 依赖 都 是 RI 和 R2 的 函数 依赖 的 逻辑 推论 (logical consequence ) 。 

sm Ri 和 R2 的 相同 属性 至 少 组 成 它们 之 中 一 个 的 候选 码 。 

考察 前 面 定 义 的 分 解 4 和 B。 在 分 解 4 中 ， 因 为 它们 的 共同 属性 CITY 是 CS 的 主 码 , 而 且 
SECOND 中 的 函数 依赖 不 是 分 别 出 现 在 CS 和 SC 中 ， 就 是 SC 和 CS 的 函数 依赖 的 逻辑 推论 ， 所 
以 分 解 4 中 的 两 个 投影 是 相互 独立 的 ; 而 在 分 解 B 中 ， 尽 管 它们 的 共同 属性 S# 是 分 解 后 的 两 个 
投影 的 候选 码 ， 但 是 ， 原 来 的 函数 依赖 CITY 一 STATUS 却 不 能 从 分 解 后 的 关系 变量 SC、SS 中 
推导 出 来 ， 所 以 ， 在 分 解 B 中 的 两 个 投影 不 是 相互 独立 的 。 注 意 ， 存 在 第 三 种 可 能 的 分 解 ， 即 
用 投影 {S#，STATUSi 和 {CITY，STATUS| 代替 SECOND， 因 为 这 种 分 解 不 是 无 损 的 ， 所 
以 是 不 合法 的 (练习 : 证 明 这 个 分 解 不 是 无 损 的 ) 。 

一 个 不 能 被 分 解 成 几 个 相互 独立 的 投影 的 关系 变量 称 为 原子 关系 变量 [12. 6] 。 然 而 应 该 注 
意 ， 事实 上 ， 一 个 给 定 的 关系 变量 如 果 不 是 原子 的 并 不 意味 着 一 定 要 把 它 分 解 成 几 个 原子 的 关系 
变量 。 例 如 ， 供 应 商 的 关系 变量 5 和 零件 的 关系 变量 PP 并 不 是 原子 的 ， 却 根本 没 必要 进行 进一步 
的 分 解 ， 当 然 SP 是 原子 的 ， 那 就 更 没有 必要 进行 分 解 了 。 

规范 化 过 程 中 把 一 个 关系 变量 分 解 成 相互 独立 的 投影 的 思想 被 称 为 “保持 函数 依赖 ” 。 最 
后 ， 我 们 对 这 个 概念 作 更 准确 的 解释 : 

1) 假设 给 定 一 个 关系 变量 R， 运 用 规范 化 过 程 对 它 进 行规 范 化 一 一 用 一 系列 的 关系 变量 
RI1，R2，…, Rn (都 是 R 的 投影 ) 代替 R。 

2) 假设 R 的 函数 依赖 集 是 5， 而 RI ，R2 ，…， Rn 的 函数 依赖 集 分 别 是 Sl ，$2，…,， Sn。 

3) 每 个 函数 依赖 集 $i 只 和 投影 Ri 的 属性 有 关 (i=1, 2，…, n)， 这 样 实现 5i 就 非常 简 
单 。 但 是 ， 真 正 要 实现 的 是 原来 S 中 的 函数 依赖 。 这 样 就 希望 分 解 成 R1,R2,…，Rn 后 ,在 实 
现 51,52,…，Sn 中 的 约束 条 件 的 同时 就 等 价 于 实现 8 中 的 约束 条 件 一 一 即 要 求 分 解 是 保持 函 
数 依 赖 的 。 

4) 假设 8 是 51,52,…, Sn 的 并 集 ， 一 般 来 讲 ， 为 了 使 分 解 是 保持 函数 依赖 的 ， 只 需 S 和 5 
的 闭 包 相 同 即 可 ， 而 不 必 使 8' = 5S〈( 关 于 函数 依赖 集 的 闭 包 ， 参 见 11. 4 节 )。 

5) 现在 还 没有 一 个 有 效 的 方法 来 计算 函数 依赖 集 的 闭 包 ， 所 以 计算 两 个 函数 依赖 集 的 闭 包 
是 否 相等 是 不 可 能 的 。 然 而 ， 现 在 已 经 有 一 种 验证 一 个 分 解 是 否 保 持 函 数 依赖 的 方法 ， 具 体 算法 
已 超出 本 书 的 讨论 范围 ， 要 进一步 了 解 可 参考 文献 [8. 13 ] 。 

这 里 给 出 一 种 9 个 步骤 的 算法 作为 后 面 的 参考 ， 运 用 该 算法 可 以 把 任意 一 个 关系 变量 RR 无 损 
分 解 〈 保 持 函 数 依 赖 ) 成 3NF 投影 的 集合 D。 没 尺 的 函数 依赖 集 为 $: 

1) 初始 化 D 为 空 集 。 

2) 设 7 为 3 的 不 可 约 覆盖 。 

3) 设 X 为 1 中 出 现在 函数 依赖 X-»7 左 端 属 性 的 集合 。 

4) 设 1 中 左 端 为 X 的 函数 依赖 的 全 集 为 XY 了 ll，X-» 了 2 ，…，X 一 Yn。 

$) 设 Z 为 天 ,7，…，Yn 的 并 。 

6) 用 DD 及 R 在 X 和 2Z 上 的 投影 的 并 代替 DD。 

7) 对 每 个 不 同 的 X 重 复 步 骤 4 ~6。 

8) 设 A1，A2,，…An 为 R (如 果 存 在 的 话 ) 中 尚未 处 理 的 属性 (例如 ， 未 被 D 中 任何 关系 
变量 所 包含 ); 用 D 及 RR 在 41，42,…，An 上 的 投影 的 并 代替 D。 

9) 如 果 DD 中 的 关系 变量 均 不 包含 R 中 的 候选 码 ， 用 D 及 RR 在 某 个 候选 码 上 的 投影 的 并 代 
替 DD。 


12.5 BOYCE/CODD 范式 
现在 ， 把 前 面 关于 每 个 关系 变量 只 含有 一 个 候选 码 的 假设 去 掉 ， 来 考虑 一 般 情况 下 可 能 出 现 
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的 问题 。 事 实 上 ，Codd 原来 的 3NF [11.6] 没有 很 好 地 处 理 一 般 情况 下 的 问题 ,更 确切 地 说 ， 
是 没有 很 好 地 处 理 具有 下 列 特性 的 关系 变量 : 

1) 具有 一 个 或 多 个 候选 码 。 

2) 候选 码 是 复合 的 。 

3) 候选 码 之 间 是 重 登 的 〈 即 至 少 有 一 个 属性 是 相同 的 ) 。 

3NF 后 来 被 由 Boyce 和 Codd 提出 的 一 个 更 为 严格 的 定义 取代 ， 该 定义 同时 适用 于 上 述 情 
况 【12.2]。 然 而 ， 由 于 该 定义 比 原来 的 3NF 定义 要 严格 ， 所 以 有 必要 给 它 一 个 新 的 名 称 而 
不 是 沿用 原来 的 3NE， 这 样 它 就 被 叫做 Boyce/Codd 范式 (BCNF) 。? 注意 ; 在 实际 生活 中 ， 
同时 满足 上 述 条 件 的 情况 并 不 常见 。 对 于 一 个 不 满足 上 述 条 件 的 关系 变量 ，3NF 和 BCNF 是 
等 价 的 。 

为 了 解释 BCNF， 首 先 回顾 一 下 前 面 的 内 容 : 决定 因素 (参见 第 11 章 ) 是 指 函 数 依赖 的 左 
边 ， 平 凡 的 函数 依赖 指 左边 是 右边 的 超 集 的 函数 依赖 。 下 面 给 出 BCNF 的 定义 : 

m Boyce/Codd 范式 : 当 且 仅 当 一 个 关系 变量 的 所 有 非 平 凡 的 、 左 部 不 可 约 的 函数 依赖 的 决 

定 因素 是 候选 码 ， 则 该 关系 变量 属于 Boyce/Codd 范式 (BCNF ) 。 
或 用 一 种 非 正 式 的 定义 ， 
s Boyce/Codd 范式 : ( 非 正式 定义 ) 当 且 仅 当 一 个 关系 变量 的 唯一 的 决定 因素 是 候选 码 ， 
则 该 关系 变量 属于 Boyce/Codd 范式 (BCNF) 。 

也 就 是 说 ， 函 数 依赖 图 中 唯一 的 一 个 箭头 是 从 候选 码 中 出 来 的 。 前 面 已 经 说 过 ， 每 一 个 候选 
码 总 有 箭头 出 来 ， 而 BCNF 认为 这 里 没有 其 他 箭头 ， 也 就 是 说 ， 在 规范 化 过 程 中 已 没有 箭头 可 消 
除 。 应 该 注意 这 两 个 BCNF 的 定义 的 区 别 ， 在 非 正式 定义 中 默认 (1) 决定 因素 不 “ 太 大 ”; 
(2) 所 有 的 函数 依赖 都 是 非 平 凡 的 函数 依赖 。 为 了 使 问题 简单 化 ， 除 非 有 特别 声明 ， 在 本 章 的 
剩余 部 分 一 直 沿 用 这 两 个 假设 。 

值得 指出 的 是 ， 从 概念 上 讲 ，BCNF 比 3NF 简单 ， 它 没有 明确 地 引用 第 一 范式 和 第 二 范式 的 
概念 ， 也 没有 引用 传递 依赖 的 概念 。 而 且 ，BCNF 的 定义 虽然 比 3NF 严格 ,但 是 任何 一 个 关系 变 
量 都 可 以 无 损 分 解 成 一 系列 BCNF 关系 变量 的 集合 。 

在 讨论 含有 多 个 候选 码 的 关系 变量 之 前 ， 首 先 讨论 既 不 属于 3NF 又 不 属于 BCNF 的 关系 变 
量 FIRST 和 SECOND ， 以 及 既 属 于 3NF 又 属于 BCNF 的 关系 变量 SP、SC 和 CS。 在 关系 变量 
FIRST 中 ， 有 三 个 决定 因素 : 即 [|S# 、|CITY} 和 1S#，P#| ,其 中 {1S#，P#} 是 候选 码 ， 所 
以 FIRST 不 属于 BCNF。 关 系 变量 SECOND 含有 两 个 决定 因素 ; {S#| 和 {CITY| ,其 中 |S# 
是 候选 码 ， 所 以 SECOND 也 不 属于 BCNF。 而 关系 变量 SP、SC 和 CS 属于 BCNF， 因 为 每 个 关 
系 变量 的 唯一 的 决定 因素 是 候选 码 。 

下 面 考虑 具有 两 个 相互 分 离 ( 即 不 重 释 ) 候选 码 的 关系 变量 。 假 设 在 供应 商 关 系 变量 
SIS#,SNAME ,STATUS ,CITY} 中 ， {S#} 和 {SNAME| 都 是 
候选 码 〈 即 在 任何 情况 下 ,供应 商 的 编号 (S#) 和 姓名 | st | | srarus | 
(SNAME) 是 唯一 的 ) ， 并 且 假 设 属性 STATUS 和 CITY 是 互相 | 
独立 的 ， 即 在 12. 3 节 的 假设 CITY 一 STATUS 不 再 成 立 ， 则 该 We ee 
关系 变量 的 函数 依赖 图 见 图 12-12。 swe em 

虽然 该 关系 变量 的 函数 依赖 图 看 起 来 比 3NF 的 “复杂 ”， 图 12-12 关系 变量 S 的 函数 
但 该 关系 变量 是 属于 BCNF 的 ， 因 为 在 该 关系 变量 的 函数 依赖 。 依赖 图 (SNAME 是 候选 码 ， 
图 中 ， 所 有 的 稍 头 都 从 候选 码 中 出 来 。 从 本 例 可 以 看 出 ， 一 个 且 函 数 依赖 CITY 一 
关系 变量 有 多 于 一 个 的 候选 码 不 一 定 是 “不 好 ”的 。 STATUS 不 成 立 ) 

下 面 讨论 一 个 候选 码 相互 重 又 的 例子 。 候 选 码 相互 重 权 是 指 两 个 或 两 个 以 上 的 候选 码 至 少 含 
有 一 个 以 上 的 公共 属性 。 为 了 和 第 9 章 关 于 该 问题 的 讨论 保持 一 致 ， 在 下 面 的 例子 中 不 再 从 候选 





@@， 第 := 范式 的 定义 实际 上 等 价 于 Heath 在 1971 年 【12.4] 给 出 的 BCNF 定义 ; 因此 “Health 范式 ”应 该 是 更 从 
当 的 名 字 。 
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码 中 选 定 主 码 ， 因 此 在 本 节 的 图 中 ， 也 不 对 任何 属性 加 下 划 线 。 
例 1: 假设 供应 商 的 姓名 是 唯一 的 ， 看 下 面 的 关系 变量 : 


SSP { S#, SNAME, P#, QTY } 


它 的 候选 码 是 |S#，P#} 和 {SNAME，P#|。 该 关系 变量 属于 BCNF 吗 ? 答案 是 “不 是 ”， 内 
为 S# 和 SNAME 都 是 决定 因素 (它们 互相 决定 ， 所 以 {5S#| 和 {SNAME| 都 是 决定 因素 ) ， 但 
不 是 候选 码 。 

图 12-13 是 该 关系 变量 的 一 个 实例 。 

从 图 中 可 以 看 出 ， 关 系 变量 SSP 和 12. 3 节 的 FIRST、SECOND 
(以 及 12. 1 节 中 的 关系 变量 SCP) 一 样 有 宛 余 ， 同 样 会 产生 更 新 异 
常 。 例 如 ， 把 供应 商 51 的 姓名 (SNAME) 由 Smith 改 为 Robinson 同 
样 会 出 现 这 样 的 问题 : 或 者 查找 所 有 $1 的 元 组 并 修改 它 ， 或 者 得 到 
一 个 可 能 不 一 致 的 结果 。 然 而 根据 以 前 的 定义 ，SSP 是 属于 3NF 的 ， 
因为 原来 的 定义 没有 规定 属于 其 他 候选 码 的 属性 必须 不 可 约 依赖 于 
每 一 个 候选 码 ， 所 以 属性 SNAME 不 是 不 可 约 依 赖 于 候选 码 1S#， 
P#| 的 事实 被 忽略 了 。 注 意 ， 这 里 的 3NF 是 指 [11.6] 中 关于 3NF 
的 原始 定义 ， 而 不 是 本 书 12. 3 节 的 简化 形式 。 

解决 该 问题 的 方法 当然 是 把 该 关系 变量 分 解 成 两 个 投影 : 


SS { S#, SNAME } 
SP { S#, P#, QTY } 


或 者 

SS { S#, SNAME } 

SP { SNAME, P#, QTY } 
这 两 种 分 解 是 等 价 的 ， 它 们 都 属于 BCNF。 

现在 ， 应 该 停 下 来 仔细 回顾 本 章 的 目的 。 显 然 ， 原 来 的 只 包含 一 个 关系 变量 SSP 的 设计 是 
“不 好 ”的 ， 其 中 的 问题 很 明显 ， 任 何 一 个 合格 的 数据 库 设 计 人 员 即 使 不 了 解 BCNF 的 思想 也 不 
会 提出 这 样 的 设计 。 常 识 会 告诉 设计 人 员 采 用 SS-SP 这 种 结构 的 设计 会 更 好 。 但 什么 是 “常识 ” 
呢 ? 数据库 设计 人 员 选 择 SS- SP 结构 而 不 选择 SSP 结构 的 理论 基础 是 什么 呢 ? 

答案 当然 是 函数 依赖 理论 和 Boyce/Codd 范式 。 也 就 是 说 ， 这 些 概 念 ( 函数 依赖 ，BCNF, 已 
经 讨论 的 和 即将 讨论 的 各 种 范式 ) 都 是 形式 化 的 “常识 ”。 该 领域 的 所 有 定理 的 自 的 就 是 识别 一 些 
常识 ， 然 后 把 它们 形式 化 一 一 这 当然 不 是 一 个 简单 的 工作 ! 但 如 果 成 功 了 ， 就 可 以 把 这 些 规则 “机 
械 化 ” ， 即 可 以 编写 程序 ， 用 机 器 去 实现 这 些 规则 。 规 范 化 理论 的 批评 者 恰巧 忽略 了 这 一 点 ， 他 们 
认为 这 些 思想 都 是 常识 ， 而 没有 意识 到 给 这 些 常识 一 个 精确 的 形式 化 定义 的 重要 性 。 

例 2: 考虑 具有 属性 S、7 和 J 的 关系 变量 SIT (有些 一 一 一 
人 可 能 认为 该 关系 变量 是 病理 方面 的 )， 我 们 用 5 表示 学 


生 ， /表示 课程 ，7 表示 教 课 程 7 的 教师 。SJT 中 的 元 组 Piof. Grace 
15: s，J: j,T: 1,| 表示 学 生 s 选修 了 教师 1 教 的 课程 j。 Jones Mashice| Brof: Bice 
该 关系 变量 中 有 下 列 约束 条 件 : 

s 某 个 学 生 选 定 某 门 课程 就 对 应 一 个 固定 的 教师 。 

s 每 一 个 教师 只 教 一 门 课 ， 而 每 门 课 有 若干 教师 。 

图 12-14 给 出 该 关系 变量 的 一 个 实例 。 

那么 ,该 关系 变量 满足 什么 样 的 函数 依赖 呢 ? 从 第 一 个 约束 条 件 
可 以 得 出 函数 依赖 ，|S, J| 一 T， 从 第 二 个 约 东 条 件 可 以 得 出 函数 
依赖 ， T_;J。 因 为 一 门 课 可 以 有 多 名 教师 ， 所 以 不 能 满足 函数 依赖 
J*T。 所 以 该 关系 变量 的 函数 依赖 如 图 12-15 所 示 。 图 12-15 关系 变量 SJT 

同样 ， 该 关系 变量 中 存在 相互 重 登 的 候选 码 ， 即 |S, J| 和 的 函数 依赖 
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图 12-13 关系 变量 SSP 
的 ( 部分) 实例 
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1S，T} 。 而 且 该 关系 变量 属于 3NF 但 不 属于 BCNEF， 所 以 它 同样 会 产生 更 新 异常 。 例 如 ， 如 果 
要 删除 Jones 选修 的 课程 physics ， 则 会 丢失 教授 physics 的 教师 Brown 教授 的 信息 。 产 生 该 问题 
的 原因 是 属性 T 是 决定 因素 ， 而 不 是 候选 码 。 同 样 可 以 把 该 关系 变量 分 解 成 两 个 属于 BCNF 的 
投影 ; 


Gr 
~ 


sT { S， 
Ty { mT， 
练习 : 根据 图 12-14 给 出 上 述 关系 变量 的 一 个 实例 ， 并 画 出 相应 的 函数 依赖 图 ， 证 明 这 两 个 

关系 变量 是 属于 BCNF 的 ， 并 指出 各 自 的 候选 码 ， 检 验 这 种 分 解 是 否 会 产生 更 新 异常 。 


然而 ， 上 述 分 解 虽然 避免 了 更 新 异常 ， 却 带 来 了 新 的 问题 : 根据 Rissanen 的 理论 〈 见 12.4 
节 ) ， 该 分 解 的 两 个 投影 不 是 互相 独立 的 ， 更 确切 地 说 函数 依赖 


{S， J) -am 


不 能 从 函数 依赖 


TJ 


( 它 是 这 两 个 投影 中 唯一 的 一 个 函数 依赖 ) 中 推导 出 来 。 结 果 ， 这 两 个 投影 不 能 被 独立 地 更 新 。 
例如 ， 不 能 在 ST 中 插 人 元 组 | Smith，Brown 教授 | ， 因 为 Smith 已 经 选修 了 Green 教授 教 的 
physics 课 ， 然 而 系统 如 果 不 检查 关系 变量 TJ 就 不 能 检查 出 这 个 事实 。 人 们 有 时 会 面临 两 难 的 选 
择 : (1) 把 关系 变量 分 解 成 属于 BCNF 的 关系 变量 ; (2) 把 关系 变量 分 解 成 互相 独立 的 关系 变 
量 ， 即 不 能 同时 满足 两 方面 的 要 求 。 

让 我 们 更 详细 地 分 析 一 下 这 个 例子 : 事实 上 ， 关系 变量 SIJT 虽然 不 属于 BCNF， 但 根据 Ris- 
samen 的 理论 ， 它 是 原子 的 ( 见 12.4 节 ) 。 从 而 可 以 看 出 ， 一 个 “原子 ”关系 变量 不 能 分 解 成 相 
互 独立 的 关系 变量 ， 并 不 意味 着 它 根本 不 能 分 解 〈 指 无 损 分 解 ) 。 直 观 地 说 , “原子 ”并 不 是 一 
个 很 好 的 术语 ， 因 为 在 数据 库 设 计 中 ,“ 原 子 ” 既 非 充分 ， 也 非 必要 。 

例 3; 考察 具有 属性 S (学 生 ) .了 (课程 ) 和 P (名 次 ) 的 关系 变量 EXAM ，EXAM 中 的 一 
个 元 组 1S: s, ]: j, P: p| 指 学 生 * 的 课程 /的 成 绩 在 班 里 的 排名 是 p。 假 定 该 关系 变量 满足 
下 列 约束 条 件 : 

s 在 间 一 门 课程 中 ， 任 意 两 个 学 生 的 排名 都 不 相同 。 

这 样 ， 该 关系 变量 的 函数 依赖 图 如 图 12-16 所 示 。 

同样 ， 该 关系 变量 有 两 个 相互 重 登 的 候选 码 1S，J} 和 
上，P} ， 因 为 (1) 给 定 一 个 学 生 和 他 选修 的 一 门 课程 ， 都 有 
唯一 的 一 个 名 次 和 他 对 应 ; (2) 给 定 一 门 课 程 和 名 次 ， 只 有 一 
个 学 生 和 它 对 应 。 但 是 ， 很 明显 ， 该 关系 变量 是 属于 BCNEF 的 ， 
因为 这 些 候选 码 都 是 决定 因素 ， 而 且 也 不 会 出 现 前 面 所 说 的 更 
新 异常 (练习: 验证 此 观点 ) 。 所 以 相互 重 亚 的 候选 码 并 不 一 图 12-16 关系 变量 EXAM 的 
定 会 导致 前 面 所 讨论 的 问题 。 函数 依赖 图 

从 上 面 的 分 析 可 以 看 出 ，BCNF 消除 了 一 些 原来 的 3NF 定义 中 仍 可 能 存在 的 问题 ， 而 且 BC- 
NF 的 定义 也 比 3NF 简洁 ， 因 为 它 没有 涉及 1NF、2NF、 主 码 及 传递 依赖 等 概念 。 而 且 ， 该 定义 
所 涉及 的 概念 一 候选 码 ， 可 以 用 更 基础 的 概念 一 一 函数 依赖 代替 ( 见 [12.2])。 另 一 方面 ， 
主 码 、 传 递 依赖 等 概念 在 实际 工作 中 也 很 重要 ， 因 为 它们 有 助 于 数据 库 设计 人 员 了 解 如 何 一 步 一 
步 地 把 任意 一 个 关系 变量 归 约 成 一 系列 属于 BCNF 的 关系 变量 的 集合 。 

最 后 我 们 给 出 一 个 4 步 的 算法 ， 使 用 这 一 算法 可 以 把 任意 一 个 关系 变量 R 无 损 分 解 成 一 系列 
属于 BCNF 的 投影 集 D (而 不 需要 保持 所 有 依赖 ) 的 算法 。 

1) 初始 化 D 为 只 包含 R。 

2) 对 DD 中 的 每 个 非 BCNF 关系 变量 7， 执 行 步骤 3 和 4。 

3) 设 X oY 为 的 不 满足 BCNF 要 求 的 函数 依赖 。 

4) 用 了 的 两 个 投影 : 在 X 和 了 上 的 投影 及 在 除了 中 属性 之 外 的 所 有 属性 上 的 投影 代替 D 中 
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的 7。 
12. 6 具有 关系 值 属性 的 关系 变量 


在 第 6 章 中 已 经 说 过 ， 一 个 关系 可 能 含有 这 样 一 个 属性 ， 这 个 属性 的 值 也 是 一 个 关系 〈 如 
图 12-17 所 示 ) 。 同 样 ， 一 个 关系 变量 也 可 能 含有 一 个 值 是 关系 的 属性 。 从 数据 库 设计 的 角度 
看 ， 这 种 关系 变量 是 不 正常 的 ， 因 为 它们 是 不 对 称 的 (更 不 用 说 它们 的 谓词 有 可 能 非常 复 
杂 1) ， 而 这 种 不 对 称 会 造成 一 系列 的 实际 问题 。 例 如 ， 在 图 12-17 中 ， 供 应 商 和 零件 是 不 对 
称 处 理 的 。 

结果 ， 查 询 (对 称 的 ) 

1) 查 出 供应 零件 Pl 的 供应 商 的 号 码 8#。 

2) 查 出 由 供应 商 51 提供 的 零件 的 号 码 P#。 


有 不 同 的 查询 表达 式 : 
1) ( SPO WHERE TUPLE { P# P# ('P1') } e PO {Pt}){S#)} 
2) ( ( SPQ WHERE S# = S# ('S1') ) UNGROUP PQ ) { P# } 


(假定 关系 变量 SPQ 如 值 是 如 图 12-17 所 示 的 关系 的 集合 。) 注意 ， 这 两 个 公式 不 但 差别 很 大 ， 
而 且 均 比 它们 在 SP 中 的 对 应 部 分 复杂 得 多 。 
更 糟糕 的 是 更 新 ， 例 如 考虑 下 列 更 新 操作 : 
1) 插入 一 个 发 货 记录 ， 它 的 供应 商号 是 %6 ， 零 件 号 是 此 ， 数 量 是 500。 
2) 插入 一 个 发 货 记录 ， 它 的 供应 商号 是 $2， 零 件 号 是 总 ， 数 量 是 500。 
对 于 通常 的 发 货 关系 变量 SP， 这 两 个 操作 根本 没什么 区 别 ， 都 是 插入 一 条 记录 ,但 是 ， 对 
于 关系 变量 SPQ 却 相 反 ， 这 两 个 操作 有 本 质 的 区 别 (更 不 用 说 这 两 个 操作 比 在 SP 上 作 相 同 的 操 
作 更 复杂 ) : 
]) INSERT SPQ RELATION 
{ TUPLE { S# S# ('S6'), 
PQ RELATION { TUPLE { P# P# ('P5'), 
QTY QTY ( 500 ) } } } 0}7; 
2) UPDATE SPQ WHERE S# = S# {('S2') 
{ INSERT PQ RELATION { TUPLE { P# P# ('P5’'), 
QTY QTY ( 500 )}}}; 
关系 变量 (至 少 是 基本 关系 变量 ) 一 般 不 希望 含有 关系 值 属性 ， 因 为 这 种 相对 简单 的 逻辑 
结构 使 得 对 它们 的 操作 也 变 得 相对 简单 。 然 而 应 该 清楚 ， 这 只 是 一 个 指导 方针 ， 而 不 是 教条 ， 在 
实际 工作 中 ,一 图 
12-18 是 目录 关系 变量 RVK 的 一 个 实例 的 一 部 分 ,该 关系 变量 列 出 了 数据 库 中 所 有 的 子 关 系 变 
量 以 及 它们 的 候选 码 。 其 中 属性 CK 的 值 也 是 关系 ， 而 且 是 该 关系 变量 唯一 的 候选 码 的 一 个 组 成 
部 分 。RVK 的 定义 如 下 : 


VAR RVK BASE RELATION 


{ RVNAME NAME, CK RELATION { ATTRNAME NAME } } 
KEY { RVNAME, CK } ; 





注意 : 本 章 未 尾 的 习题 12. 3 介绍 如 何 消除 关系 值 属性 的 方法 一 一 如 果 必 须 消除 这 种 关系 值 
属性 的 话 ”( 事 实 上 常常 是 需要 的 ) 。 





@ 事实 上 ， 以 历史 的 观点 来 看 ， 这 样 的 关系 变量 甚至 是 非法 的 一 一 它们 被 称 为 非 规范 化 的 ， 实 际 上 它们 甚至 不 
满足 第 一 范式 〈 见 第 6 章 ) 。 

”并 且 关 系 值 是 可 消除 的 ! 注意 ,在 RVK 的 情况 下 是 不 可 消除 的 ， 起 码 不 可 直接 消除 (例如 缺少 对 某 种 CK- 
NAME 一 一 “候选 码 名 称 ” (candidate key name) 的 介绍 ) 。 
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HUSBAND 
图 12-17 一 个 具有 关系 值 属 性 的 关系 图 12-18 目录 关系 变量 RVK 的 实例 
12.7 小 结 


到 目前 为 止 ， 我 们 已 经 约束 了 进一步 规范 化 的 前 两 章 的 讨论 。 在 这 两 章 中 ， 主 要 讨论 了 第 
一 、 第 二 、 第 三 范式 和 Boyce/ Codd 范式 。 因 为 属于 任何 一 个 范式 的 关系 变量 都 自动 属于 比 它 低 
一 级 的 范式 ， 反 之 则 不 然 ， 而 且 存 在 一 些 关 系 变量 ， 它 属于 某 一 范式 ， 但 不 属于 比 该 范式 更 高 级 
别 的 范式 ， 所 以 这 些 不 同 的 范式 〈 包 括 下 一 章 要 讨论 的 第 四 范式 和 第 五 范式 ) 就 组 成 一 条 线 。 
更 进一步 地 ， 任 意 一 个 关系 变量 都 可 以 归 约 成 BCNF (事实 上 可 以 归 约 成 SNF) ， 几 乎 任何 一 个 
关系 变量 都 可 以 用 一 个 等 价 的 BCNF (或 5NF) 关系 变量 的 集合 替代 。 这 种 归 约 的 目的 是 避免 宛 
余 和 消除 某 些 更 新 异常 。 

归 约 过 程 包括 用 一 些 投影 替代 给 定 的 关系 变量 ， 这 样 通过 这 些 投影 的 连接 可 以 得 到 原来 的 关 
系 变 量 ， 即 这 种 归 约 过 程 是 可 逆 的 〈 或 者 说 这 种 分 解 是 无 损 的 ) 。 函 数 依赖 在 分 解 过 程 中 同样 具 
有 重要 作用 ，Heath 定理 指出 如 果 满 足 给 定 的 函数 依赖 ， 则 这 种 分 解 是 无 损 的 。 这 一 步 肯定 了 第 
11 章 中 的 观点 ， 范 数 依赖 这 一 概念 “不 是 很 基础 ， 但 十 分 靠近 基础 。 

这 两 章 里 还 讨论 了 Rissanen 的 相互 独立 的 投影 概念 ， 并 建议 当 有 多 种 分 解 时 ， 分 解 成 相互 独 
立 的 投影 比分 解 成 相互 不 独立 的 投影 要 “好 ”。 当 把 一 个 关系 变量 分 解 成 相互 独立 的 投影 时 ， 该 
分 解 保持 了 函数 依赖 。 但 是 ， 把 一 个 关系 变量 无 损 分 解 成 BCNF 的 集合 和 保持 函数 依赖 这 两 个 目 
的 有 时 是 相互 冲突 的 ， 不 能 同时 满足 。 

最 后 给 出 3NF 和 BCNF 的 精确 定义 (参见 Zaniolo [12.7] ), 首先 是 3NF 的 定义 : 

s 第 三 范式 (Zaniolo 的 定义 ) : 假设 R 是 关系 变量 , X 是 R 的 属性 子 集 ，A 是 尺 的 任意 一 个 
属性 ， 当 且 仅 当 每 一 个 函数 依赖 X->A 至 少 满足 下 列 条 件 中 的 一 个 时 ， 该 关系 变量 属于 3NF: 

1) XX 包含 4 (这 样 ， 该 函数 依赖 是 平凡 的 ) 。 

2) X 是 一 个 超 码 。 

3) 4 属于 R 的 某 个 候选 码 。 

只 要 把 3NF 定义 中 的 第 三 种 可 能 去 掉 ， 即 可 得 到 Boyce/ Codd 范式 的 定义 (这 也 说 明 BCNF 
比 3NF 严格 ) 。 事 实 上 ，Codd 原来 的 3NF 定义 的 缺陷 产生 的 原因 就 是 存在 第 三 种 可 能 性 ， 最 终 
导致 了 BCNF 的 引入 。 


习题 


12. 1 证 明 Heath 定理 。 该 定理 的 道 定理 成 立 吗 ? 

12.2 所 有 的 二 元 关系 变量 都 是 属于 BCNF 的 。 该 命题 正确 吗 ? 

12.3 图 12-19 是 某 公 司 人 事 部 门 数据 库 中 要 存放 的 信息 ， 以 层次 结构 (如 IBM 的 层次 数据 库 系 统 IMS) 
的 形式 体现 如 下 理解 该 图 : 





12.4 


12.5 


12.6 
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该 公司 有 若干 部 门 。 
@ 每 个 部 门 有 若干 职工 、 项 目 和 办 公 室 。 
每 个 职工 都 有 工作 经 历 ( 该 职工 所 从 事 过 的 工作 
的 集合 ) 。 
对 每 一 项 工作 ,该 职工 者 有 一 个 工资 历史 记录 
(该 职工 从 事 该 工作 时 所 得 的 工资 ) 。 
甸 每 个 办 公 室 有 若干 个 电话 。 
该 数据 库 包 含 以 下 信息 : 
ma 每 个 部 门 的 信息 包括 : 部 门 号 (唯一 ) 、 预 算 和 部 
门 经 理 的 职工 号 (唯一 )。 
ms 每 个 职工 的 信息 包括 : 职工 号 〈 唯 一 ) 、 当 前 参加 ”图 12-19 -个 公司 的 数据 库 (层次 结构 ) 
的 项 目的 项 目 号 、 办 公 室 号 码 、 电 话 号 码 、 每 个 
职工 所 从 事 的 各 个 工作 的 的 名 称 、 加 薪 日 期 及 工资 额 。 
描述 每 个 项 目的 属性 : 项 目 号 (唯一 ) 和 预算 。 
于 描述 办 公 室 的 属性 : 办 公 室 号 码 〈 唯 一 ) 、 楼 层 、 办 公 室内 的 电话 号 码 (唯一 )。 
根据 这 些 信息 ， 设 计 适 当 的 关系 变量 ， 指 出 各 个 关系 变量 所 应 满足 的 函数 依赖 ， 并 声明 与 这 些 函 数 
依赖 有 关 的 假设 。 
一 个 订货 系统 数据 库 中 包括 顾客 、 存 货 和 订单 等 内 容 ， 下 面 是 该 数据 库 应 包含 的 内 容 : 
a 每 个 顾客 的 信息 
。 顾客 号 〈 唯 一 ) 
e 收 货 (ship-to) 地 址 (每 个 顾客 可 以 有 多 个 ) 
。 余额 
。 内 购 限额 
e 折 扣 
5 描述 每 份 订单 的 属性 : 
。 订单 头 信息 : 
顾客 号 
收 货 地 址 
订货 日 期 
。 订单 细 则 (每 一 份 订单 可 以 有 多 项 订单 细则 ): 
货物 编号 
订货 数量 
描述 每 种 货物 的 属性 : 
e 货 物 编 号 〈 唯 一 ) 
。 制造 厂商 
。 每 个 厂商 实际 存货 量 
。 每 个 厂商 规定 的 最 低 存货 量 
。 货物 的 详细 描述 
由 于 处 理 的 需要 ， 每 份 订货 单 的 每 一 项 订货 细则 还 应 有 一 个 未 发 货 量 ， 该 值 开始 时 是 发 货 量 ， 随 着 
发 货 将 减 为 0。 为 这 些 数 据 设 计 一 个 数据 库 。 对 于 不 同 的 情况 给 出 数据 依赖 的 假设 。 
假设 上 题 中 只 有 很 少量 的 顾客 (例如 1% 或 更 少 ) 有 多 个 发 货 地 址 ， 这 是 符合 实际 情况 的 ， 由 于 这 
些 极 少数 的 例外 而 又 不 能 忽视 的 情形 使 我 们 不 能 按 一 般 的 方法 来 处 理 问题 。 请 回顾 上 一 题 的 答案 ， 
并 改进 它 。 
(向 习题 11. 13) 关系 变量 TIMETABLE 有 以 下 属性 : 
一 星期 中 的 一 天 (1 ~5) 
一 天 中 的 一 个 时 间 段 (1 ~8) 
教室 号 码 
教师 姓名 
学 生 姓 名 
课程 名 称 








mHAN 人 TH 
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12.7 


家 三 训 分 禾 氛 芋 齐 计 


元 组 1D: dg，P: p, C: c，T: t,，S: s, L: 1 指 在 时 间 段 1D: d, P: p| 时， 学 生 s 选修 


了 教师 1 教 的 课程 /， 上 课 地 点 是 c。 可 以 假定 ， 每 节 课 持续 一 个 时 间 段 ， 并 且 一 个 星期 中 所 有 课程 
的 名 称 都 是 唯一 的 。 请 把 该 关系 变量 归 约 成 更 好 的 结构 。 

关系 变量 NADDR ( 同 习 题 11. 14) 的 属性 是 : NAME (姓名 ， 唯 一) 、STREET (街道 ) 、CITY 
(城市 ) 、STATE ( 州 ) 和 ZIP (邮编 ) 。 对 于 任意 一 个 邮编 ， 只 有 一 个 城市 和 州 与 之 对 应 ; 同样 ， 
对 于 任意 给 定 的 一 个 街道 、 城 市 或 州 ， 只 有 一 个 邮编 和 它 对 应 。 那 么 NADDR 是 否 属于 BCNF? 是 
否 属于 3NF 或 2NF? 能 设计 出 更 好 的 结构 吗 ? 


12.8 设 SPQ 为 关系 变量 ， 它 取 值 为 满足 图 12-17 中 表明 的 形式 的 关系 。 描 述 SPQ 的 外 部 谓词 。 
参考 文献 

除了 下 面 列 出 的 参考 文献 外 ， 还 可 以 参考 第 11 章 中 的 参考 文献 ， 特 别 是 Codd 关于 1NF、2NF 和 3NF 
的 论文 [11.6]。 


[12.1] 


[12.2] 


[12.3] 


Philip A. Bernstein: “ Synthesizing Third Normal Form Relations from Functional Dependencies,” 
ACM TODS 1, No.4 (1976 年 12 月 ) 

本 章 讨论 了 把 一 个 “大 ”关系 变量 分 解 成 一 些 较 “ 小 ”的 关系 变量 〈 即 上 共有 少量 属性 ) 
的 方法 。 在 这 篇 文章 中 ，Bernstein 考虑 了 该 问题 的 道 问题 : 用 “ 较 小 ”的 关系 变量 合成 “ 较 
大 ”的 关系 变量 〈 也 就 是 说 具有 更 多 属性 ) 。 但 是 在 该 文中 ， 这 个 问题 并 不 是 这 么 描述 的 ， 他 
把 该 问题 描述 成 根据 给 定 的 属性 集 和 函数 依赖 合成 一 个 属于 3NF 的 关系 变量 集 。 然 而 ， 因 为 脱 
离 关 系 变量 这 一 具体 的 上 下 文 ， 属 性 和 函数 依赖 没有 任何 意义 ， 所 以 ， 把 含有 函数 依赖 的 二 元 
关系 变量 作为 基本 结构 ， 将 会 比 把 多 个 属性 及 其 函数 依赖 作为 基本 结构 更 精确 。 

注意 : 可 以 把 一 组 给 定 的 属性 集 和 函数 依赖 集 看 作 是 定义 一 个 满足 给 定 函 数 依赖 集 的 通用 
关系 变量 (参见 【13.20]) 。 在 这 种 情况 下 ,，“ 合 成 过 程 ” 就 可 以 被 看 作 是 把 该 “通用 关系 变 
量 ”分 解 成 3NF 的 关系 变量 集 ， 但 在 目前 讨论 中 仍然 使 用 原来 的 关于 “合成 ”的 解释 。 

这 样 ， 合 成 过 程 就 成 了 从 一 组 二 元 关系 变量 和 适用 于 这 些 关系 变量 的 函数 依赖 集中 合成 n 
元 关系 变量 的 过 程 ， 而 且 ， 这 些 n 元 关系 变量 应 该 是 属于 3NF 的 (做 这 些 工作 时 还 没有 BCNF 
的 定义 ) 。 执 行 此 任务 的 算法 已 经 提出 。 

该 方法 有 一 个 缺陷 〈 由 Bernstein 发 现 ) : 合成 算法 只 能 处 理 语法 (syntactic) 问题 而 不 能 处 
理 语义 (semantics) 问题 。 例 如 : 给 定 函 数 依赖 : 

A 一 8 (适用 于 关系 变量 R{A,B}) 

8 一 5C 《适用 于 关系 变量 S{B,C}) 

A 一 C (适用 于 关系 变量 T{4,C})) 

第 三 个 函数 依 束 有 可 能 是 完 余 的 ( 即 可 以 由 第 一 个 和 第 二 个 函数 依赖 蕴涵)， 也 可 能 不 是 元 余 
的 ， 这 取决 于 RR、S 和 了 本 身 的 意义 。 例 如 ， 假设 4 是 雇员 编号 ，B 是 办 公 室 号 码 ，C 是 部 门 编 
号 ,如果 RR 表示 “雇员 的 办 公 室 ”，5 表示 “拥有 该 办 公 室 的 部 门 "，T 表示 “职工 所 在 的 部 
门 ”"， 考虑 一 个 职工 在 不 属于 他 所 在 的 部 门 的 办 公 室 办 公 的 情况 ， 则 可 以 看 出 第 三 个 函数 依赖 不 
是 由 第 一 个 和 第 二 个 函数 依赖 所 蕴涵 的 。 合 成 算法 假定 ， 这 两 个 C 属性 是 一 样 的 (事实 上 , 它 
根本 不 识别 关系 变量 的 名 称 ) ， 这 样 就 需要 外 部 机 制 ( 如 人 的 干预 去 避免 语义 上 的 非法 操作 。 
在 这 种 情况 下 ， 在 最 初 定义 函数 依赖 时 就 需要 设计 者 给 这 两 个 属性 定义 不 同 的 名 称 ， 如 在 8 中 
定义 为 C1， 而 在 了 中 定义 为 C2。 

E. F. Codd: “Recent Investigations into Relational Data Base Systems,” Proc. IFIP Congress, Stock- 
holm, Sweden (1974), and elsewhere. 

该 文 涉 及 的 主题 比较 多 ,但 主要 是 给 出 了 改进 的 第 三 范式 的 定义 ， 其 中 的 第 三 范式 实际 上 
就 是 众所周知 的 BCNF。 该 文 还 讨论 了 视图 及 视图 更 新 、 数 据 子 语言 、 数 据 交 换 和 进一步 研究 
的 方向 等 问题 。 

C.J. Date: “A Normalization Problem,” in Relational Database Writings 1991 - 1994. Reading, 
Mass. : Addison- Wesley (1995 ) . 

为 了 证 明 这 些 抽象 的 理论 ， 该 文 以 航班 管理 数据 库 为 例 ， 分 析 了 规范 化 问题 ， 并 利用 它 考 

察 了 数据 库 设计 及 显 式 的 完整 性 约束 条 件 的 声明 等 问题 。 下 面 是 该 数据 库 中 的 函数 依赖 ; 





[12.4] 


[12.5] 


[12.6] 
[12.7] 
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FLIGHT } 一 DESTINATION 

FLIGHT } — HOUR 

DAY, FLIGHT } 一 GATE 

DAY, FLIGHT } 一 PILOT 

DAY, HOUR, GATE } —» DESTINATION 
DAY, HOUR, GATE } ~ FLIGHT 

DAY, HOUR, GATE } 一 PILOT 

DAY, HOUR, PILOT } -> DESTINATION 
DAY, HOUR, PILOT } 一 FLIGHT 
DAY, HOUR, PILOT } -> GATE 


这 个 例子 还 说 明 ， 仅 仅 以 规范 化 理论 为 基础 ， 很 难 设 计 出 好 的 数据 库 。 
1 J Heath: “Unacceptable File Operations in a Relational Database,” Proc. 1971 ACM SIGFIDET 
Workshop on Data Description, Access, and Control, San Diego, Calif. (November 1971 ) . 

该 文 给 出 了 “3NF” 的 定义 ， 它 实际 上 是 最 早 的 BCNF。 该 文 还 验证 了 本 书 12. 2 节 提 到 的 
Heath 定理 。 应 该 注意 的 是 ， 本 章 所 讨论 的 规范 化 的 三 个 步骤 实际 上 就 是 Heath 定理 的 应 用 。 
William Kent: “A Simple Guide to Five Normal Forms in Relational Database Theory,” CACM 26， 
No. 2 (February 1983 ) . 

该 文 阑 明了 3NF (更 精确 地 讲 是 BCNF) 具有 吸引 力 的 两 大 原因 : 每 个 属性 必须 代表 码 
(整个 码 ) 的 一 个 事实 ,而 且 仅 仅 是 代表 码 。 
Jorma Rissanen :“Independent Components of Relations,” ACM TODS 2, No. 4 (December 1977 ) . 
Carlo Zaniolo: “A New Normal Form for the Design of Relational Database Schemata,” ACM TODS 
7, No. 3 (September 1982). 

在 12. 3 节 提 到 了 3NF 和 BCNF 定义 的 基础 。 该 文 的 主要 目的 是 定义 一 个 范式 : 基本 码 范 
式 (elementary key normal form) ， 即 EKNF， 该 范式 在 克服 了 3NF 和 BCNF 的 不 足 (3NF 的 定 
义 太 “宽松 ”， 而 BCNE 的 计算 又 太 复杂 ) 的 同时 ,保留 了 两 者 的 优点 。 该 文 还 说 明 ， 利 用 
Bernsteim 算法 [12. 1] 得 到 的 关系 变量 实际 上 属于 EKNF， 而 不 是 属于 3NF。 


Eo 





第 13 章 ”进一步 规范 化 外: 高 级 范式 


13.1 引言 


在 前 一 章 讨论 了 从 第 一 范式 到 Boyce/Codd 范式 的 进一步 规范 化 思想 (这 是 函数 依赖 的 概念 所 
能 达到 的 最 高 层次 ) 。 现 在 讨论 4NF 和 5NF 来 结束 这 一 部 分 的 内 容 。 正 如 下 面 将 要 看 到 的 ，4NF 的 
定义 利用 了 一 个 新 型 的 依赖 ， 称 为 多 值 依赖 (MVD ) 。 多 值 依赖 是 广义 的 函数 依赖 。 同 样 ，5NF 的 
定义 应 用 了 另 一 种 形式 的 依赖 ， 称 为 连接 依赖 (TD) ， 连 接 依赖 是 一 种 广义 的 多 值 依赖 。 在 13. 2 节 
将 讨论 MVD 和 4NF，13.3 节 讨论 了 和 5NE (该 节 还 解释 了 5NF 在 某 种 特定 意义 上 被 称 为 是 “最 
终 的 规范 化 形式 ”的 理由 ) 。 值 得 说 明 的 是 ， 对 MVD 和 JD 的 讨论 没有 第 11 章 对 函数 依赖 的 讨论 
那么 正式 和 完整 。 这 是 有 意 为 之 ， 正 式 的 讨论 留 作 研究 论文 〈( 见 本 章 末 的 “参考 文献 ”) 。 

13. 4 节 回 顾 了 全 部 的 规范 化 过 程 ， 并 且 补 充 了 一 些 评论 。13.5 节 简 单 地 讨论 了 范式 逆 规 范 
化 的 概念 。13.6 节 描 述 了 另 一 个 设计 原则 : 正 交 设计 (orthogonal design) 。13.7 节 是 对 今后 在 
规范 化 领域 的 一 些 可 能 研究 方向 的 简单 介绍 。13. 8 节 是 全 章 的 小 结 。 


13. 2 多 值 依赖 与 第 四 范式 


假定 有 一 个 关系 变量 HCTX (H 代表 层次 ) ， 其 中 包括 COURSES 、TEACHERS 、TEXTS 信 
息 。 在 此 变量 中 与 TEACHERS 和 TEXTS 相对 应 的 属性 是 关系 值 属性 (参考 图 13-1 中 的 HCTX 
值 的 例子 ) 。 可 以 看 到 ， 每 一 个 HCTX 元 组 包括 一 个 COURSE (课程 名 ) 、 一 个 包括 TEACHER 
名 的 关系 以 及 一 个 包括 TEXT 名 的 关系 〈 在 图 中 列 出 了 两 个 这 样 的 元 组 ) 。 建 立 这 样 的 元 组 的 意 
图 是 ， 指 定 的 课程 COURSE 可 以 由 任意 一 个 指定 的 教师 TEACHER 教授 ， 并 可 以 用 任意 一 本 指 
定 的 教材 TEXT 作为 参考 书 。 假 定 对 于 一 个 给 定 的 课程 ce， 可 以 存在 任意 数量 m 的 相应 教师 和 任 
意 数 量 n 的 相应 教材 (其 中 m>0，n >0)。 并 假定 : 教师 与 教材 之 间 是 彼此 相对 独立 的 ， 这 种 假 
定 可 能 并 不 实际 。 这 就 是 说 ， 无 论 哪 位 教师 教 指定 的 哪 一 门 课程 ， 都 可 以 用 同一 本 教材 。 最 后 还 
假定 一 个 指定 的 教师 和 一 本 指定 的 教材 是 可 以 与 任意 数量 的 课程 相 联系 的 。 


COURSE | TEACHERS TEXTS 
Prof. Green Basic Mechanics 
Prof. Brown Principles of Optics 
TEACHER 
Basic Mechanics 
Vector Analysis 
Trigonometry 












HCTX 













图 13-!1 关系 变量 HCTX 的 值 的 例子 


现在 假设 要 去 掉 关 系 值 属性 (与 第 12 章 中 12. 6 节 相 同 )。 一 种 方法 (这 可 能 不 是 最 好 的 方 
法 , 将 在 本 节 结 尾 进行 讨论 ) 是 简单 地 将 关系 变量 HCTX 替换 为 一 个 有 三 个 标量 属性 COURSE、 
TEACHER 和 TEXT 的 关系 变量 CTX， 如 图 13-2 所 示 。 从 图 中 可 以 看 到 ， 每 一 个 HCTX 中 的 元 
组 都 在 CTX 中 引发 出 m*n 个 元 组 ， 其 中 m 和 nn 是 HCTX 中 TEACHERS 和 TEXTS 关系 的 基数 
(cardinality ) 。 值 得 注意 的 是 ， 所 得 到 的 关系 变量 CTX 是 “全 码 ” (然而 在 HCTX 中 只 有 单一 的 
候选 码 COURSE) 。 

练习 : 给 出 一 个 能 从 HCTX 推导 出 CTX 的 关系 表达 式 。 
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CTX|COURSE |TEACHER TEXT 


. Green|Basic Mechanics 
. Green|Principles of Optics 
。 Brown Basic Mechanics 


. Green |Basic Mechanics 
+ Green|Vector Analysis 
。 Green |Trigonometry 


图 13-2 与 图 13-1 中 HCTX 值 相对 应 的 关系 变量 CTX 的 值 


关系 变量 CTX 的 含义 基本 上 可 以 归纳 为 : 一 个 元 组 {COURSE: c，TEACHER: !，TEXT: x| 
在 CTX 中 出 现 ， 当 且 仅 当 课 程 c 可 以 由 教师 1 教授 ， 并且 应 用 教材 x 为 参考 书 。 因 此 ， 对 于 一 门 
给 定 的 课程 ， 所 有 的 教师 和 教材 的 可 能 组 合 情 况 都 可 能 出 现 。 这 就 是 说 ，CTX 满足 如 下 关系 变 
量 的 约束 条 件 : 

如 果 元 组 (c, 1 ,x1)，(c, 人 2, 蓉 ) 都 出 现 ， 

那么 元 组 〈c, {1 驶 )，(c, 及 ,x1) 也 都 出 现 (在 此 又 用 到 了 元 组 的 简单 表示 法 ) 。 

很 显然 ， 在 关系 变量 CTX 中 存在 大 量 元 余 ， 通常 这 会 导致 一 定 的 更 新 异常 (update anoma- 
ly)。 举 例 来 说 ， 如 果 添 加 物理 课 可 以 由 一 个 新 教师 教 的 信息 ， 就 必须 要 添加 两 个 元 组 ， 对 每 一 
个 教材 都 要 添加 一 个 。 能 避免 这 个 问题 吗 ? 不 难看 出 : 首先 ， 这 个 问题 是 由 教师 和 教材 彼此 完全 
独立 引起 的 。 在 此 ， 如 果 CTX 被 分 解 为 两 个 相互 独立 的 投影 | COURSE，TEACHER | 和 
1COURSE，TEXT| ( 设 这 两 个 投影 名 为 CT 和 CX) ， 情 况 就 会 好 得 多 (参见 图 13-3 ) 。 








CT 


COURSE | TEACHER 


Physics |Prof. Green Physics |Basic [Basic Mechanics | 
Physics |Prof. Brown Physics | Principles of Optics 
Math Prof 。 Green Math Basic Mechanics 
Math Vector Analysis 
Math Trigonometry 


13-3 与 CTX 的 值 相对 应 的 关系 变量 CT 和 CX 的 值 


如 果 增 加 一 个 教授 物理 课 的 新 教师 的 信息 ， 现 在 我 们 所 要 做 的 就 是 在 图 13-3 中 的 关系 变量 
CT 上 插入 一 个 单独 的 元 组 。( 还 要 注意 关系 变量 CTX 可 以 通过 连接 CT 和 CX 重新 得 到 ， 因 此 这 
样 的 分 解 并 没有 损失 。) 因此 ， 这 种 思想 看 来 确实 很 合理 ， 即 对 于 像 CTX 这 样 的 关系 变量 应 该 有 
一 种 “进一步 规范 化 ”的 方法 。 

现在 ， 你 可 能 产生 这 样 的 想法 : 在 CTX 中 并 非 一 定 存在 元 余 ， 因 而 与 此 相应 的 更 新 异常 也 
不 一 定 会 出 现 。 更 明确 地 说 : 你 会 认为 ， 在 CTX 中 对 每 一 个 给 定 的 课程 ， 并 不 需要 包括 所 有 可 
能 的 教师 和 教材 的 组 合 。 例 如 : 两 个 元 组 显然 足以 显示 物理 课 有 两 个 教师 和 两 本 教材 。 但 问题 
是 : 究竟 是 用 哪 两 个 元 组 呢 ? 任何 一 个 基体 的 选择 都 会 引起 关系 变量 中 不 明确 的 解释 和 奇怪 的 更 
新 操作 〈 试 标明 一 个 关系 变量 中 这 样 的 谓词 ! 例如 ， 试 着 陈述 可 以 决定 在 这 个 关系 变量 中 一 些 
更 新 操作 是 否 是 一 个 可 以 接受 的 操作 的 标准 ) 。 

因此 ， 在 非 正式 的 条 件 下 CTX 的 设计 明显 是 不 好 的 ， 而 分 解 为 CT 和 CX 就 好 多 了 。 然 而 ， 
问题 是 在 正式 的 条 件 下 宛 余 的 问题 并 不 很 明显 ， 特 别 是 在 CTX 根本 不 满足 任何 函数 依赖 的 情况 
下 (除了 一 些 平凡 的 函数 依赖 ， 如 COURSE- COURSE) 。 事 实 上 ，CTX 是 属于 BCNF 范式 的 ,2 
因为 它 已 经 是 全 码 一 一 所 有 含 全 码 的 关系 变量 都 必定 包含 在 BCNF 中 (注意 ，CT 和 CX 这 两 个 
投影 也 是 全 码 ， 因 此 它们 也 属于 BCNF 范式 ) 。 因 此 前 一 章 的 讨论 对 本 章 没 有 任何 帮助 。 

像 CTX 这 样 的 BCNF 关系 变量 “问题 ”很 早 就 被 发 现 ， 并 且 处 理 它们 的 方法 也 很 快 就 为 人 
们 所 理解 ， 至 少 是 在 直观 上 。 然 而 ， 直 到 1977 年 Fagin 的 多 值 依赖 概念 (MVD) [13.14] 的 提 








”HCTX 也 属于 BCNF; 实际 情况 是 ， 它 也 属于 第 四 范式 及 第 五 范式 ( 见 本 章 后 面 的 定义 )。 
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出 ， 这 些 直 观 的 观点 才 有 了 令 人 信服 的 理论 根基 。 多 值 依赖 是 一 种 一 般 化 的 函数 依赖 ， 因 而 每 一 
个 FD 都 是 MVD, 但 反之 则 不 正确 (例如 上 面 的 MVD 就 不 是 FD ) 。 在 关系 变量 CTX 中 ， 有 两 
个 MVD 如 下 : 

COURSE 一 一 TEACHER 

COURSE 一 > TEXT 
(注意 这 里 用 双 箭 头 ， 多 值 依赖 4 一 一 了 称 为 “8 多 值 依赖 于 4”， 或 者 说 , “4 多 值 决定 8”。) 让 
我 们 来 看 第 一 个 MVD， 即 COURSE 一 一 TEACHER。 直 观 地 说 ，MVD 就 意味 着 虽然 一 门 课程 并 不 
对 应 一 个 相应 的 教师 (例如 并 不 存在 函数 依赖 COURSE 一 TEACHER) 但 每 一 门 课 确实 对 应 一 个 定 
义 得 很 好 的 教师 集合 。 这 里 所 说 的 “定义 得 很 好 ”的 含义 ， 是 指 对 于 一 门 给 定 的 课程 c 和 一 本 给 定 
的 教材 x， 教 师 ! 的 集合 是 否 与 CTX 中 的 (c,x) 相 匹配 ， 只 依赖 于 c 的 值 ， 而 与 选择 哪 一 个 x 值 无 
关 。 第 二 个 MVD，COURSE 一 TEXT， 也 可 以 有 类 似 的 解释 。 

下 面 我 们 给 出 正式 的 定义 : 

m 多 值 依赖 R 是 一 个 关系 变量 ，A、B 和 C 是 RR 的 属性 子 集 。 那 么 我 们 说 B 多 值 依赖 于 4， 

符号 如 下 : 


A 8B 


( 读 做 “A4 多 值 决定 8”, 或 简单 地 称 为 “4 双 箭头 B”) ， 当 且 仅 当 对 于 每 一 个 可 能 的 合法 R 
值 ， 8 值 的 集合 对 于 给 定 的 一 组 (4 值 ，C 值 ) 只 依赖 于 4 的 值 ， 而 与 C 的 值 无 关 。 

很 容易 看 出 【13. 14] ， 对 于 给 定 的 变量 R14,B,C} ， 多 值 依赖 4 一 3B 存在 ， 当 昌 仅 当 多 值 
依赖 4 一 C 也 存在 。 这 样 MVD 总 是 成 对 出 现 。 因 此 通常 用 一 种 语句 来 表示 它们 : 


4 一》8 | C 


例如 : 


COURSE —> TEACHER | TEXT 


在 前 面 我 们 已 经 提 到 ， 多 值 依赖 是 一 般 化 的 函数 依赖 ， 在 这 种 意义 上 每 一 个 FD 者 是 MVD。 
更 精确 地 说 ， 一 个 FD 就 是 一 个 只 有 一 个 依赖 值 〈 右 边 的 ) 与 一 个 给 定 的 决定 值 相符 合 的 MVD。 
因此 ， 如 果 4 一 B， 那 么 一 定 4 一 >B。 

回 到 我 们 原来 的 CTX 问题 ， 现 在 可 以 看 到 像 CTX 这 样 的 关系 变量 的 问题 是 : 它们 包括 不 是 
FD 的 MVD。( 在 这 种 问题 并 不 明显 的 情况 下 ， 可 以 指出 ， 正 是 MVD 的 存在 使 得 这 种 问题 存在 。 
举例 来 说 : 增加 一 个 教师 要 插入 两 个 元 组 。 为 了 保证 MVD 所 提供 的 完整 性 约束 ， 需 要 插 人 两 个 
元 组 ) 。CT 和 CX 这 两 个 投影 并 不 包括 任何 这 样 的 MYD， 它 们 完善 了 原来 的 设计 。 因 此 我 们 用 
这 两 个 投影 来 代替 CTX， 由 Fagin 证 明 的 一 个 重要 的 定理 ( 见 参考 文献 [13. 14] ) 为 我 们 做 这 
样 的 替换 提供 了 依据 : 

= 定理 (Fagin) ; 假定 Ri4,8,C| 是 一 个 关系 变量 ,其 中 A4、B 和 C 都 是 属性 集 。 那 么 R 等 
同 于 它 在 14，B 和 {4，C| 上 的 投影 的 组 合 ， 当 且 仅 当 R 满足 多 值 依赖 A 下 BI C。 

(注意 : 这 是 一 个 在 第 12 章 定义 的 Heath 定理 [12.4] 的 更 高 级 的 版 本 。) 根据 Fagin 
[13. 14] 的 理论 ， 我 们 现在 就 可 以 定义 第 四 范式 (之 所 以 这 样 叫 是 因为 那 时 BCNF 依然 被 称 为 
第 三 范式 ): 

s 第 四 范式 : 关系 变量 属于 4NF， 当 且 仅 当 存在 R 的 属性 子 集 4 和 B， 满 足 非 平凡 的 多 什 
依赖 A 一 > BB， 并且 RR 的 所 有 属性 也 都 函数 依赖 于 A4。 注 意 ， 如 果 4 是 8 的 超 集 , 式 4 与 的 并 
集 为 R 的 所 有 属性 ， 则 多 值 依 赖 4 一 >B 是 平凡 的 。 

换 句 话说 ， 在 R 中 唯一 的 非 平凡 的 依赖 ( 函数 依赖 或 多 值 依 赖 ) 是 下 忆 X 形式 《例如 一 
个 超 码 kK 对 另 一 个 属性 站 的 函数 依赖 )。 同 样 ， 如 果 R 属 于 BCNF， 并 且 R 中 的 所 有 非 平凡 的 多 
值 依赖 事实 上 都 是 “ 非 码 函数 依赖 "， 则 R 属于 4NF。 因 此 特别 要 注意 的 是 ,4NF 包含 了 BCNF。 

既然 关系 变量 CTX 包括 了 根本 不 是 FD 的 MVD， 它 就 不 属于 4NF ， 更 不 用 说 非 码 函 数 依赖 
了 。 然 而 ， 它 的 两 个 投影 CT 和 CX 都 属于 4NF。 因 此 ，4NF 是 BCNF 的 一 种 改进 ， 因 为 4NF 消 
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除了 一 种 并 不 受 欢迎 的 依赖 。 而 且 ，Fagin 在 参考 文献 [13. 14] 中 还 提 到 了 4NF 通常 是 可 以 实 
现 的 ， 这 就 是 说 ,任何 关系 变量 都 可 以 无 损 分 解 为 相应 的 4NF 关系 变量 的 集合 。 虽 然 在 第 12 章 
的 12.5 节 中 对 SJT 示例 的 讨论 表明 ，: 在 某 些 情况 下 不 必 分 解 得 如 此 之 细 (甚至 进一步 规范 化 到 
BCNF 都 不 必要 )。 

注意 : Rissanen 的 投影 独立 理论 [12.6] 虽然 是 以 函数 依赖 为 依据 的 ， 但 是 也 适用 于 多 值 依 
赖 。 前 面 也 谈 及 一 个 满足 函数 依赖 A 一 B 和 8->C 的 关系 变量 R14,8,C} ,将 其 分 解 为 在 14， 
Bi 和 1B8，C 上 的 投影 要 好 于 分 解 为 在 14,， Bi 和 {14,，C| 上 的 投影 。 如 果 我 们 将 这 里 的 
函数 依赖 替换 为 多 值 依 赖 ， 这 个 定理 依然 成 立 。 

最 后 ， 回 到 消除 关系 值 属性 (简称 为 RVA) 的 问题 上 来 ， 方 法 如 下 : 如 果 开 始 时 一 个 关系 
变量 中 存在 两 个 或 多 个 相互 独立 的 RVA ( 像 关 系 变量 HCTX 一 样 ) ， 那 么 所 要 做 的 第 一 件 事 就 是 
将 这 些 RVA 进行 无 损 分 解 ， 而 不 是 简单 地 用 标量 属性 来 替代 这 些 RVA (正如 本 节 前 面 所 做 的 那 
样 )。 例 如 ， 在 关系 变量 HCTX 的 例子 中 ， 第 一 件 事 就 是 将 原来 的 关系 变量 替换 为 它 的 两 个 投影 
HCT |COURSE，TEACHERS| 和 HCX | COURSE，TEXTS} (TEACHERS 和 TEXTS 仍旧 是 
RVA) 。 然 后 这 两 个 投影 中 的 RVA 可 以 用 标量 属性 来 替代 ， 并 且 在 必要 时 用 通常 的 方式 把 它们 
归 约 为 BCNF (实际 上 是 4NF) 而 且 满 足 BCNF 范式 的 关系 变量 CTX 不 会 产生 这 种 问题 。 正 是 
MVD 和 4NF 为 上 述 的 分 解 提 供 了 一 个 理论 基础 ， 否 则 这 将 只 是 一 种 赁 经 验 做 而 做 出 的 结论 。 


13. 3 ”连接 依赖 与 第 五 范式 


到 目前 为 止 ， 在 本 章 (并 且 在 第 12 章 ) 中 都 默认 ， 在 进一步 规范 化 过 程 中 可 行 并 且 必 要 的 
唯一 的 操作 是 用 一 种 无 损 方法 将 一 个 关系 变量 用 它 的 两 个 投影 来 代替 。 这 种 方法 成 功 地 进行 到 了 
第 四 范式 。 因 此 ， 如 果 关 系 变量 不 是 无 损 分 解 为 两 个 投影 而 是 无 损 分 解 为 三 个 投影 或 更 多 ， 可 能 
会 让 人 觉得 很 奇怪 。 这 样 的 关系 变量 可 描述 为 “n 分 解 ”(n >2)， 表 示 对 于 任意 m <n 其 中 1 < 
m 并 且 m <n， 关 系 变量 可 以 被 无 损 分 解 为 n 个 投影 而 不 是 为 m 个 投影 。 一 个 关系 变量 可 以 被 
无 损 分 解 为 两 个 投影 ， 则 称 之 为 “可 2 分解” 的 。 注 意 ; n >2 时 的 n 分 解 现象 是 由 Aho、Beeri 
和 Ulman 提出 的 [13.1] ， 而 Nicolas 还 研究 了 n=3 时 的 情况 [13. 26 ]。 

考虑 从 供应 商 -零件 -工程 数据 库 中 提取 的 关系 变量 SPJ (为 简单 起 见 忽 略 QTY 属性 ); 它 
的 一 个 简单 的 值 在 图 13-4 的 上 半 部 表示 出 来 。 可 以 看 到 关系 变量 SPJ 是 全 码 ， 并 且 根 本 不 包含 
非 平凡 的 函数 依赖 或 多 值 依赖 ， 因 此 SPJ 属于 4NF。 图 13-4 还 显示 了 : 








图 13-4 关系 SPI 是 三 个 二 元 投影 的 连接 而 非 其 中 任何 两 个 的 连接 
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1) 与 显示 在 图 顶端 的 SPJ 的 相关 值 相 对 应 的 三 个 二 元 投影 SP、PJ 和 JS。 

2) 将 SP 和 PJ 投影 连接 起 来 的 结果 (通过 P#) 。 

3) 将 上 一 步 的 结果 和 JS 投影 相 结合 的 结果 (通过 内 和 5S#) 。 

可 以 观察 到 第 一 个 连接 的 结果 是 产生 一 个 原始 SPJ 关系 的 副本 加 上 一 个 多 余 的 元 组 ， 第 二 个 
连接 的 结果 是 消除 多 余 的 元 组 ， 从 而 复原 为 原始 的 SPJ 关系 。 换 句 话 说， 原始 的 SPJ 关系 是 可 3 
分 解 的 。 注 意 : 无 论 我 们 选择 哪 两 个 投影 作为 第 一 次 连接 ， 结 果 都 是 一 样 的 ， 虽然 在 每 种 情况 下 
中 间 结 果 不 同 。( 练习 : 证 明 这 一 命题 。) 

现在 ， 图 13-4 的 例子 中 是 给 出 关系 ， 而 不 是 关系 变量 。 然 而 ，SPJ 的 可 3 分 解 性 是 基本 的 、 
与 时 间 无 关 的 特性 ， 即 它 是 关系 变量 的 所 有 合法 值 满足 的 特性 ， 如 果 这 个 关系 变量 满足 一 个 特定 
的 与 时 间 无 关 的 完整 性 约束 的 话 。 要 理解 这 个 完整 性 约束 的 意义 ， 必 须 首先 看 到 “SPJ 与 三 个 投 
影 SP、PJ 和 JS 的 连接 等 价 ” 的 说 法 与 下 面 的 说 法 完全 相同 . 

如 果 (51]，pl) 在 SP 中 出 现 ， 

并 且 (pl, 有 六) 在 PJ 中 出 现 ， 

并 且 (六 ，s1) 在 JS 中 出 现 ， 

那么 三 元 组 (s1 ,pl, 有 站) 在 SPJ 中 出 现 。 
因为 三 元 组 (sl1 ,pl, 放 ) 显然 出 现在 SP、PJ 和 JS 的 连接 中 (注意 : 反之 , “如 果 (s1，Pl， 


SPJ 来 说 都 是 正确 的 )。 对 于 一 个 及 ，(s1,，p1) 出 现在 SP 中 ， 当 且 仅 当 (s1，pl, 这 ) 出 现在 
SPJ 中 ， 并 且 对 于 (pl, 让 ) 和 (7L，s1) 的 情况 也 类 似 ， 那 么 我 们 就 可 以 将 上 面 的 综述 作为 
SPJ 的 一 个 约束 。 复 述 如 下 : 

如 果 (sl, pl, 及),，(s2, pl, 月 ) 和 (sl1,p2, 天 ) 在 SPJ 中 出 现 ， 

那么 (sl, pl, 咱 ) 也 在 SPJ 中 出 现 。 

如 果 这 种 说 法 在 任何 情况 下 都 成 立 (例如 关系 变量 SPJ 的 所 有 可 能 的 合法 值 ) 那么 这 个 关系 变 
量 确实 存在 一 个 与 时 间 无 关 的 约束 (虽然 是 一 个 很 奇异 的 约束 )。 可 以 看 到 这 个 约束 的 循环 性 
(“如 果 sl 与 pl 连接 ,pl 与 ji 连接 , 而 几 又 与 s1 连接 ， 那么 51、pl 和 六 一 定 是 在 一 个 元 组 中 
同时 出 现 的 ”)。 当 n>2 时 ,一 个 关系 变量 是 可 分解 的 ， 当 和 且 仅 当 它 满足 这 样 的 路 的 循环 
约束 。 

于 是 可 以 认为 ,关系 变量 SPJ 确实 满足 时 间 无 关 约 束 (图 13-4 中 的 例子 是 符合 这 一 假设 
的 ) 。 可 以 将 这 种 约束 简化 为 3D 约束 (3D 代表 可 3 分 解 的 ) 。 在 现实 条 件 下 ，3D 约束 意味 着 什 
么 呢 ? 通过 一 个 例子 可 以 将 其 具体 化 。 这 个 约束 表明 ， 在 所 假设 的 关系 变量 SPJ 表示 的 那 部 分 现 
实 世 界 当 中 ， 如 果 (例如 ) 

a) 史密斯 提供 活动 扳手 ， 

b) 活动 扳手 在 曼哈顿 项 目 中 使 用 ， 

c) 史密斯 为 曼哈顿 项 目 提供 支持 ， 
那么 

d) 史密斯 提供 活动 扳手 给 曼哈顿 项 目 。 

注意 : (正如 在 第 1 章 的 1.3 节 所 指出 的 ) a、b 和 一 起 出 现 通常 并 不 表示 d 也 一 定 出 现 ; 
事实 上 ， 这 个 例子 在 第 1 章 中 是 作为 “连接 陷阱 ” (connection trap) 的 一 个 说 明 提 出 的 。 然 而 ， 
在 现在 的 例子 中 并 不 存在 陷阱 一 一 因为 存在 一 个 附加 的 现实 世界 约束 在 起 作用 ， 即 3D 约束 ,使 
得 在 这 个 特殊 的 例子 中 从 a、b 和 c 中 推演 出 4 有 效 。 

回 到 所 讨论 的 主题 : 因为 3D 约束 被 满足 当 且 仅 当 所 考虑 的 关系 变量 与 其 特定 的 投影 的 连接 
结果 等 价 ， 所 以 这 种 约束 被 称 为 连接 依赖 (JD ) 。 当 MVD 或 FD 是 某 关系 变量 中 的 约束 时 ，JD 
才 是 其 中 的 约束 。 下 面 是 其 定义 : 

s 连接 依赖 . 如 果 丸 是 一 个 关系 变量 ， 并 且 4，B，...,，Z 都 是 RR 的 属性 子 集 ， 那么 称 R 满 

足 了 
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( 读 做 “ 星 4, 8B，…，Z ”) 当 且 仅 当 的 任何 可 能 出 现 的 合法 值 都 与 它 在 4, 8, .…, Z 
上 的 投影 的 连接 等 价 。 
例如 ， 如 果 用 SP 来 表示 SPJ 的 属性 集 的 子 集 |S#，P#| ， 同 样 也 用 PJ 和 JS 来 表示 SPJ 的 另 
两 个 属性 集 ， 那 么 关系 变量 SPJ 满足 JD *{SP, PJ, JS}。 
另 举 一 个 例子 ， 考 虑 通常 的 供应 商 关系 变量 S。 如 果 我 们 使 用 SN 表示 S 的 属性 集 的 子 集 
1S#，SNAME| ，ST 和 SC 与 之 类 似 ， 那 么 我 们 可 以 说 关系 变量 S 满足 连接 依赖 * 1SN,，ST,， SCi。 
那么 ， 可 以 看 到 拥有 连接 依赖 * | SP，PJ，JS} 约束 的 关系 变量 SPJ， 是 可 3 分 解 的。 但 问题 
是 ， 应 该 让 它 可 3 分 解 吗 ? 答案 是 “可 以 ”。 关 系 变量 SPJ (存在 了 D 约束) 存在 一 大 堆 的 更 新 异 
常 ， 当 它 被 3 分 解 之 后 这 些 问 题 就 迎刃而解 了 。 类 似 的 更 新 异常 例子 在 图 13-5 中 表示 。 而 在 3 
分 解 之 后 将 会 有 什么 情况 发 生 作为 练习 留 给 大 家 思考 。 


on [ar | FT 
S1 | P2 | J1 





S1 | Pl | Jl 


和 如 果 {Ss2, P1,J1} 被 插入 ， 那 么 | 里 可 以 无 副作用 地 删除 {S2, P1,J1)。 


{S1, P1,J1} 也 一 定 被 插入 。 如 果 {81,p1,J1} 被 删除 ， 那 么 另 个 
@ 然而 反之 并 不 正确 。 ( 哪 一 个 ? ) 元 组 也 要 被 删除 。 


图 13-5 在 SPJ 中 的 更 新 异常 实例 


Fagin 定理 ( 见 13.2 节 ) 表明 ,，R 14,， B,C| 可 以 被 无 损 分 解 为 它 在 14， B81 和 |4， 
Cl 上 的 投影 ， 当 和 且 仅 当 在 R 中 存在 多 值 依赖 A 一 3B 和 4 一 >C。 等 价 于 : 
m RIA,B,C| 满 足 连接 依赖 *148B，AC| ， 当 且 仅 当 它 满足 多 值 依赖 4 一 > 有 1 C。 
既然 这 个 定理 可 以 被 用 做 多 值 依赖 的 定义 ， 这 就 表明 多 值 依赖 是 一 种 特殊 形式 的 连接 依 
赖 ， 或 者 说 (等 价 ) 连接 依赖 是 一 种 一 般 化 的 多 值 依赖 。 形 式 化 地 表示 ， 可 以 有 


A 一 一 日 | C = 内 {AB，AC } 


注意 : 从 定义 可 以 看 到 ， 连 接 依赖 是 可 能 的 依赖 中 最 一 般 化 的 一 种 形式 ( 在 某 种 特殊 的 意 
义 上 使 用 了 术语 “依赖 ") 。 这 就 是 说 ， 只 要 把 对 依赖 的 理解 限制 在 对 关系 变量 通过 投影 来 分 解 
通过 连接 来 重组 的 处 理 框架 内 ， 就 不 存在 一 种 更 高 形式 的 依赖 ， 使 得 连接 依赖 仅仅 是 这 种 更 高 形 
式 的 依赖 的 特殊 情况 。( 然而 ， 如 果 人 允许 通过 其 他 的 分 解 和 重组 操作 ， 那 么 其 他 类 型 的 依赖 就 可 
能 会 出 现 。 这 种 可 能 性 将 在 13.7 节 简 单 地 加 以 讨论 。) 

回 到 图 13 -5 的 例子 中 可 以 看 到 ， 关 系 变量 SPJ 的 问题 是 它 包括 不 是 多 值 依赖 当然 也 不 是 
函数 依赖 ) 的 连接 依赖 〈 练习 : 为 什么 存在 这 个 问题 ?) 。 可 以 看 到 ， 将 关系 变量 SPJ 分 解 为 更 
小 的 部 分 一 一 即 分 解 为 由 连接 依赖 指定 的 投影 是 可 能 的 ， 而 且 也 是 我 们 所 期 望 得 到 的 。 这 种 分 解 
过 程 重复 下 去 ， 得 到 的 关系 变量 称 为 第 五 范式 。 其 定义 如 下 : 

sa 第 五 范式 : 一 个 关系 变量 R 是 第 五 范式 一 一 也 称 为 投影 - 连接 范式 (PJ/ANF) 一 一 当 且 仅 

当 R 的 候选 码 蕴 含 R 的 每 一 个 非 平凡 的 连接 依赖 。 其 中 : 

a) R 的 连接 依赖 *14，B，,，…，Z| 是 平凡 的 ， 当 生 仅 当 A4，8，…, Z 中 的 至 少 一 个 是 RR 
中 所 有 属性 的 集合 。 

b) 有 R 的 连接 依赖 *14，B，…，Z| 被 R 的 候选 码 所 蕴涵 ， 当 且 仅 当 4，B8，…，Z 中 的 每 
一 个 都 是 R 的 超 码 。 

关系 变量 SP] 并 不 属于 5NF; 它 满足 一 个 特定 的 连接 依赖 ， 即 3D 约束 ， 这 显然 没有 被 其 叭 
一 的 候选 码 (这 个 候选 码 是 SP] 所 有 的 属性 值 的 组 合 ) 所 蕴涵 。 可 以 表示 其 区 别 如 下 : 关系 变 
量 SPJ 并 不 属于 5NF， 因 为 (a) 它 是 可 以 被 3 分 解 的 ，(b) 可 3 分 解 性 并 没有 为 其 |S#，P#， 
]#| 是 一 个 候选 码 的 事实 所 蕴涵 。 相 反 ，3 分 解 后 ， 由 于 三 个 投影 SP、PJ 和 JS 根本 不 包括 任何 
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( 非 平凡 的 ) 连接 依赖 ， 因 此 它们 都 属于 5NF。 
注意 ， 任 何 属于 5NF 的 关系 变量 也 都 自动 属于 4NF， 因 为 (如 我 们 所 见 的 ) 多 值 依赖 是 连 
接 依赖 的 一 种 特殊 情况 。 事 实 上 ， 在 参考 文献 [13. 15] 中 ，Fagin 提出 候选 码 所 蕴涵 的 多 值 依 
赖 必须 是 一 个 函数 依赖 ， 在 这 个 函数 依赖 中 ， 候 选 码 是 决定 因素 。 同 时 ，Fagin 还 提出 任何 给 定 
的 关系 变量 都 可 以 被 无 损 分 解 为 一 个 相等 的 SNF 关系 变量 集合 ， 这 就 是 说 ，5NF 是 可 以 达到 的 。 
现在 解释 一 下 连接 依赖 为 候选 码 所 蕴涵 的 含义 。 仍 以 我 们 所 熟悉 的 供应 商 关 系 变量 $ 为 例 ， 
该 关系 变量 满足 几 个 连接 依赖 。 例 如 ， 它 满足 连接 依赖 


* { { S#, SNAME, STATUS }, { S#, CITY } } 


这 就 是 说 ， 关 系 变量 S 和 它 在 |S#，SNAME，STATUS| 和 |1S#，CITY| 上 的 投影 的 连接 是 相 
等 的 ， 因 此 能 被 无 损 分 解 为 这 些 投影 (这 并 不 表示 它 应 该 被 分 解 ， 而 是 表示 可 以 分 解 )。 这 个 连 
接 依赖 被 | S#} 是 一 个 候选 码 的 情况 所 蕴涵 ; 事实 上 它 是 被 Heath 的 定理 【12.4] 所 蕴涵 。 

现在 假设 关系 变量 S 有 第 二 个 候选 码 |SNAME| ， 并 且 关 系 变量 S 也 满足 连接 依赖 ( 如 第 
12 章 12.5 节 所 设 ) 


水 {{ S#, SNAME }, { S#, STATUS }, { SNAME, CITY ) } 


这 个 连接 依赖 是 由 {S#| 和 {SNAME| 两 个 候选 码 所 畜 涵 的 。 

前 面 的 两 个 例子 都 表明 了 ， 一 个 给 定 的 连接 依赖 *i4,B,…,Z| 是 由 候选 码 所 蕴涵 的 ， 当 且 
仅 当 每 一 个 A,8B,.…,Z 都 是 所 讨论 的 关系 变量 的 超 码 。 因 此 ， 给 定 一 个 关系 变量 R， 只 要 知道 尺 
中 所 有 的 候选 码 和 所 有 的 连接 依赖 就 可 以 分 辨 出 尺 是 否 属于 5NF。 然 而 ， 所 有 的 连接 依赖 可 能 自 
身 是 一 个 非 平 凡 的 操作 。 这 就 是 说 ， 尽 管 相对 来 说 分 辩 函 数 依 赖 和 多 值 依赖 是 很 简单 的 〈 因 为 
它们 是 对 现实 世界 的 直接 解释 ) ， 但 对 那些 既 不 是 多 值 依赖 也 不 是 函数 依 束 的 连接 依赖 却 并 非 如 
此 一 一 因为 连接 依赖 的 意义 可 能 不 是 很 直观 。 因 此 确定 一 个 给 定 的 关系 变量 属于 4NF 而 不 属于 
5NF， 并 且 决 定 是 否 可 以 因此 通过 分 解 逆 规范 化 的 方式 来 规范 给 定 关 系 变量 的 过 程 依然 不 清楚 。 
经 验 表明 这 样 的 关系 变量 在 实际 中 是 很 少见 的 。 

综 上 所 述 ， 考 虑 到 投影 和 连接 ， 从 定义 上 看 SNF 是 最 终 的 范式 (这 也 解释 了 5NF 的 男 一 个 
名 字 ， 即 投影 - 连接 范式 ) 。 这 就 是 说 ， 一 个 5NF 的 关系 变量 是 通过 投影 的 方式 来 保证 没有 更 新 
异常 的 情况 。 因 此 ， 如 果 一 个 关系 变量 属于 SNF， 那 么 所 有 的 连接 依赖 都 是 由 其 候选 码 所 蕴涵 
的 ， 正 确 的 分 解 方式 就 是 基于 这 些 候 选 码 的 〈 在 这 样 的 分 解 中 ， 每 一 个 投影 都 包含 一 个 或 多 个 
这 样 的 候选 码 ， 再 加 上 零 个 或 多 个 其 他 的 属性 ) 。 例 如 ， 供 应 商 关系 变量 S 是 属于 5NF 的 。 如 前 
所 述 ， 它 可 以 通过 几 种 无 损 的 方式 被 进一步 分 解 ， 在 这 种 分 解 中 的 每 一 个 投影 都 将 包含 一 个 原 有 
关系 变量 的 候选 码 ， 并 且 在 进一步 的 分 解 中 看 不 到 明显 的 优势 。 


13. 4 规范 化 过 程 小 结 


到 现在 为 止 ， 在 本 章 ( 以 及 前 一 章 ) 中 ， 作 为 数据 库 设计 的 目标 ， 已 经 讨论 了 无 损 分 解 的 
技术 。 基 本 的 观点 如 下 : 给 定 某 一 1NF 的 关系 变量 和 R 的 一 些 函 数 依赖 、 多 值 依赖 和 连接 依赖 ， 
系统 地 将 R 归 约 为 一 组 “更 小 ”( 即 ， 度 更 低 ) 的 关系 变量 ， 这 些 关 系 变量 在 一 定 的 意义 上 是 与 
R 相等 的 ,但 在 某 些 方面 比 R 更 优 ”。 归 约 过 程 的 每 一 步 都 包括 由 前 一 步 的 结果 来 投影 关系 变 
量 。 在 每 一 步 中 用 给 定 的 约束 来 指导 下 一 步 投 影 的 选择 。 整 个 过 程 可 以 非 形式 化 地 描述 为 如 下 一 
组 规则 : 

1) 对 原始 的 1NF 的 关系 变量 进行 投影 ， 消 除 任何 不 可 约 的 函数 依赖 。 这 一 步 将 产生 一 个 
2NF 关系 变量 集合 。 

2) 对 2NF 的 关系 变量 进行 投影 ， 消 除 任何 可 传递 的 函数 依赖 。 这 一 步 将 产生 3NF 关系 变量 
的 集合 。 





@ 我们 假定 中 只 包含 需要 的 RVA ( 如果 包含 的 话 ) ， 不 需要 的 RVA 可 以 用 13. 2 节 讨 论 的 方法 去 除 、 
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3) 对 3NF 的 关系 变量 进行 投影 ， 消 除 任何 决定 因素 不 是 候选 码 的 函数 依赖 。 这 一 步 将 产生 
BCNF 关系 变量 的 集合 。 

注意 : 规则 1 ~3 可 以 合并 为 一 个 规则 ， 即 “对 原始 的 关系 变量 进行 投影 ， 消 除 所 有 的 决定 
因素 不 是 候选 码 的 函数 依赖 ”。 

4) 对 BCNF 的 关系 变量 进行 投影 ， 消 除 任何 不 是 函数 依赖 的 多 值 依赖 。 这 一 步 将 产生 4NF 
的 关系 变量 的 集合 。 注 意 ; 在 实践 中 通常 是 一 一 通过 “分 离 独立 的 RVA” 的 方式 来 实现 ， 正 如 
在 13.2 节 中 对 CTX 的 例子 所 解释 的 一 一 消除 这 样 的 多 值 依赖 之 后 再 应 用 以 上 的 规则 1 ~3。 

5) 对 4NF 的 关系 变量 再 进行 投影 ， 如 果 存 在 任何 不 被 候选 码 所 蕴涵 的 连接 依赖 ， 则 加 以 消 
除 。 这 一 步 将 产生 SNE 关系 变量 的 集合 。 

从 前 面 的 小 结 中 提出 以 下 几 点 : 

1) 首先 ， 在 每 一 步 进行 的 投影 过 程 必 须 是 基于 -- 种 无 损 的 方式 ， 并 且 最 好 是 用 保持 原 有 依 
赖 的 方法 来 投影 。 

2) 观察 到 (由 Fagin 首先 提出 ， 见 参考 文献 [13.15]) 在 BCNF、4NF 和 5NF 的 定义 中 有 
一 种 非常 引 人 注 目的 对 应 关系 ， 即 : 

a 一 个 关系 变量 RR 是 BCNF， 当 目 仅 当 R 中 的 每 一 个 函数 依赖 都 被 R 的 候选 码 所 蕴涵 。 

a -个 关系 变量 RR 是 4NF， 当 且 仅 当 R 中 的 每 一 个 多 值 依赖 都 被 R 的 候选 码 所 蕴涵 。 

。 “个 关系 变量 RR 是 5NF， 当 且 仅 当 R 中 的 每 一 个 连接 依赖 都 被 R 的 候选 码 所 蕴涵 。 

在 第 12 章 以 及 在 本 章 的 前 几 节 中 讨论 的 更 新 异常 的 问题 正 是 由 于 那些 不 被 候选 码 所 蕴涵 的 
FD、MVD 和 JD 所 引起 的 。( 这 里 涉及 的 FD 、MVD 和 ID 都 假设 是 非 平 凡 的 。) 

3) 规范 化 过 程 的 总 体 目的 如 下 : 

= 消除 某 些 元 余 。 

= 避免 更 新 异常 。 

。 产生 一 种 可 以 很 好 代表 现实 世界 的 设计 一 一 一 个 很 直观 并 且 方 便 未 来 扩充 的 设计 。 

a 可 以 简单 地 满足 某 些 完整 性 约束 。 

我 们 对 以 上 列 出 的 最 后 一 条 稍 作 详细 的 介绍 。 通 常 的 观点 是 (从 本 书 其 他 部 分 的 论述 也 可 
得 到 这 样 的 观点 ) 一 些 完整 性 约束 隐 含 其 他 的 完整 性 约束 。 举 一 个 例子 ， 一 个 工资 必须 大 于 
10 000 元 的 约束 肯定 是 蕴涵 工资 大 于 0 的 约束 的 。 现 在 ， 如 果 完整 性 约束 A 蕴涵 B， 那 么 满足 4， 
则 一 定 自动 满足 8 (甚至 没 必要 明确 标明 8 完整 性 ， 除 非 是 用 注释 的 形式 ) 。 规 范 到 5NF 的 规范 
化 提供 了 一 种 满足 某 些 重要 而 又 经 常 发 生 的 约束 的 简单 方法 ;所 需要 的 工作 就 是 满足 候选 码 的 只 
一 性 ， 这 样 所 有 的 连接 依赖 就 会 被 自动 满足 一 因为 所 有 的 这 些 连接 依赖 ( 和 多 值 依赖 以 及 了 
数 依赖 ) 都 会 被 候选 码 所 蕴涵 。 

4) 这 里 再 一 次 强调 规范 化 只 是 作为 一 种 参考 而 已 ， 有 时 侦 尔 也 可 能 不 需要 完全 规范 化 。 有 
关 姓 名 和 地 址 的 关系 变量 NADDR (参见 第 12 章 习题 12.7) 是 这 一 情况 的 典型 例子 ， 但 是 一 般 
来 说 ， 不 完全 规范 化 是 不 可 取 的 。 

5) 再 重复 一 下 ,第 12 章 中 关于 依赖 和 进一步 规范 化 的 概念 本 质 上 都 是 语义 的 概念 。 换 句 话 
说 ， 它 们 关注 数据 的 意义 。 相 反 ， 基 于 这 些 形式 的 关系 代数 、 关 系 演算 以 及 像 SQL 这 样 的 语言 ， 
却 只 关注 实际 数据 的 值 ， 它 们 除了 要 求 满足 INF 外 并 不 要 求 任何 特定 级 别 的 规范 化 。 进 一 步 规 
范 化 方针 应 当主 要 被 看 作 是 辅助 数据 库 设计 的 规则 (因此 对 用 户 也 有 帮助 ) 一 一 这 种 规则 帮助 
设计 者 用 一 种 简单 而 又 易 懂 的 方式 来 对 现实 世界 的 一 部 分 进行 语义 描述 。 

6) 承接 前 面 的 观点 : 规范 化 的 思想 对 数据 库 的 设计 是 有 用 的 ， 但 它们 并 不 是 秘方 良药 。 以 
下 是 几 点 原因 (在 参考 文献 [13.9] 中 有 详细 介绍 ) : 

= 规范 化 确实 可 以 协助 满足 某 些 完整 性 约束 并 使 其 过 程 变 得 简单 ， 但 是 (如 在 第 9 章 所 述 ) 

连接 依赖 、 多 值 依赖 和 函数 依赖 并 不 是 唯一 可 以 在 实践 中 应 用 的 约束 。 

。 分 解 方法 可 能 并 不 是 唯一 的 (事实 上 ， 通 常 有 许多 种 将 一 组 给 定 的 关系 变量 归 约 为 5NF 

的 方法 ) ， 并 且 还 有 几 个 用 来 选择 分 解 方法 的 有 针对 性 的 标准 。 
。 根据 12. 5 节 的 解释 〈“SJT 问题 ") ，BCNF 范式 和 保持 依赖 的 目标 可 能 是 有 冲突 的 。 
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sa 规范 化 过 程 通过 投影 消除 了 宛 余 ， 但 是 并 不 是 所 有 的 宛 余 都 是 可 以 用 这 种 方式 来 消除 的 
(“CTXD 问题 "， 见 参考 文献 【13. 14】 中 的 解释 ) 。 
无 论 如 何 应 该 指出 ， 好 的 自 上 而 下 的 设计 方法 都 趋向 于 充分 规范 化 的 设计 (参见 第 14 章 ) 。 


13.5 ” 逆 规 范 化 


根据 本 章 (以 及 前 一 章 中 ) 的 观点 ， 我 们 理所当然 地 应 该 全 面 规范 到 5NF。 然 而 在 实践 中 ， 
为 取得 好 的 性 能 ,“ 北 规范 化 ”又 是 必需 的 。 这 个 观点 的 内 容 如 下 : 

1) 完全 的 规范 化 意味 着 会 出 现 许多 逻辑 上 分 离 的 关系 变量 (并 且 我 们 这 里 假定 所 讨论 的 关 
系 变量 是 特定 的 基本 关系 变量 ) 。 

2) 许多 逻辑 上 分 离 的 关系 变量 意味 着 许多 物理 上 分 离 的 存储 文件 。 

3) 许多 物理 上 分 离 的 存储 文件 意 昧 着 会 有 许多 IO 操作 。 

严格 地 说 ， 这 种 观点 当然 是 不 合理 的 ， 因 为 〈 在 本 书 的 其 他 部 分 有 论述 ) 关系 模型 并 没有 
保证 基本 关系 变量 必须 一 一 映射 到 存储 文件 中 。 如 果 必 要 的 话 ， 逆 规范 化 应 该 在 存储 文件 的 层次 
上 操作 而 不 是 在 基本 关系 变量 的 层次 上 操作 ”。 但 是 这 种 观点 对 现在 的 SQL 产品 米 讲 是 有 效 的 ， 
因为 在 这 些 产品 中 存在 着 不 同 级 别 的 不 完全 分 离 。 因 此 在 这 一 节 ， 我 们 仔细 地 看 一 下 “ 道 规范 
化 ”的 概念 。 注 意 : 下 面 的 讨论 是 基于 参考 文献 [13.6] 的 。 

1. 逆 规 范 化 的 含义 

简单 地 回顾 一 下 : 规范 化 一 个 关系 变量 R 就 意味 着 将 R 用 一 组 投影 R1, R2,…, Rn 来 代替 ， 
使 得 尺 等 价 于 R1,R2,…,Rn 的 连接 。 总 体 的 目标 是 通过 确定 每 一 个 投影 Ri ,R2 ,…，Rn 都 处 于 最 
高 级 的 规范 化 来 减少 元 余 。 | 

为 定义 逆 规 范 化 ， 先 设 R1 ,RR，,…,Rn 是 一 组 关系 变量 。 逆 规范 化 这 些 关 系 变量 就 意味 着 将 
它们 替换 为 它们 的 连接 ，Ri(i= 1,2,……m) 的 属性 值 可 通过 投影 尺 得 到 。 总 体 的 目标 是 增加 宛 余 ， 
通过 确认 只 处 于 比 关系 变量 RI1 ,R 民 ，…, Rn 更 低 的 规范 化 级 别 来 完成 。 更 具体 地 说 ， 目 的 是 在 数 
据 库 设计 中 事先 建立 一 些 连接 ， 从 而 减少 执行 中 的 连接 代价 。 

例如 ， 我 们 可 以 考虑 道 规范 化 关系 变量 零件 和 发 货 量 来 产生 一 个 关系 变量 PSQ， 如 图 13-6 
所 示 ”。 可 以 看 到 关系 变量 PSQ 属于 1NF 而 不 属于 2NF。 


Er Er Et 
Pi | Nut Red 12.0 | London | Si |{ 300 
Pl | Nut Red 12.0 | London | S2 | 300 
P2 | Bolit | Green 17.0 | Paris |Sl|200 


se 


P6 cog | Red | 19.0 | ronadon | S1 | 100 | 
图 13-6 道 规 范 化 零件 与 发 货 量 











2. 相关 问题 

逆 规 范 化 的 概念 引起 许多 很 著名 的 问题 。 一 个 很 明显 的 问题 是 ,一 旦 我 们 开始 道 规 范 化 ， 并 
不 清楚 在 哪里 终止 。 对 于 规范 化 来 说 ， 有 很 合情合理 的 原因 使 其 一 直 继 续 到 可 能 的 最 高 的 规范 化 
形式 ; 那么 在 逆 规 范 化 中 我 们 是 否 要 达到 最 低 的 规范 化 形式 呢 ? 当然 不 是 ; 然而 并 没有 合理 的 标 
准确 切 地 决定 在 哪里 终止 。 换 句 话说， 在 选择 道 规 范 化 时 ， 没 有 什么 固定 的 科学 理论 的 支持 ， 而 
是 通过 纯粹 的 经 验 主观 决定 的 。 

第 二 个 明显 的 问题 是 存在 元 余 和 更 新 间 题 ， 这 正 是 因为 所 处 理 的 关系 变量 是 没有 完全 规范 化 





@@ 这 一 评论 不 是 十 分 准确 ， 逆 规范 化 是 在 关系 变量 上 的 操作 ， 而 不 是 在 存储 文件 上 的 操作 ， 所 以 它 不 能 被 应 用 
“在 存储 文件 的 层次 上 ”。 但 是 假定 北 规 范 化 的 某 个 类 似 操作 可 以 在 存储 文件 的 层次 上 执行 并 不 是 没有 意义 的 。 

@” 如 果 使 用 我 们 通常 的 示例 数据 ， 逆 规范 化 供应 商 和 发 货 量 就 存在 问题 。 因 为 供应 商 S5 在 连接 中 丢失 。 因 此 ， 有 
人 可 能 认为 ， 在 逆 规 范 化 过 程 中 应 该 使 用 外 连接 。 但 是 正如 我 们 将 在 第 19 章 看 到 的 ， 外 连接 也 存在 固有 的 
问题 。 
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的 。 这 些 问 题 已 经 详细 地 讨论 过 了 。 此 外 ， 还 可 能 会 有 检索 问题 ; 这 就 是 说 ， 逆 规范 化 实际 上 使 
查询 更 加 难以 表示 。 例 如 :“ 对 于 每 一 种 零件 颜色 ， 都 给 出 它们 的 平均 重量 ”的 查询 。 如 果 使 用 
通常 的 规范 化 的 设计 ， 适 当 的 公式 是 : 


SUMMARIZE P BY { COLOR } ADD AVG ( WEIGHT ) AS AVWT 


然而 对 于 图 13-6 中 的 逆 规 范 化 设计 ， 这 个 公式 就 有 些 蹊跷 (更 不 必 说 它 是 依赖 于 通常 是 不 合理 
的 假定 一 一 每 一 个 零件 确实 有 至 少 一 个 发 货 量 与 其 对 应 ) : 


SUMMARIZE PSQ { P#, COLOR, WEIGHT } BY { COLOR } 
ADD AVG ( WEIGHT ) AS AVWT 
(注意 : 该 公式 执行 起 来 可 能 效率 很 差 ) 。 换 名 话说， 就 可 用 性 和 性 能 两 方面 因素 考虑 ， 通 常 逆 
规范 化 是 “对 检索 有 利 而 对 更 新 不 利 ” 的 理解 是 错误 的 。 
第 三 个 (也 是 最 主要 的 ) 问题 如 下 (这 一 点 适用 于 “适当 ”的 道 规 范 化 ， 即 只 在 存储 文件 
层 进行 的 逆 规 范 化 ， 也 适用 于 那些 在 当今 的 SQL 产品 中 有 时 必须 进行 的 逆 规 范 化 ) : 当 提 到 逆 规 
范 化 “对 性 能 有 益 ” 时 ， 实 际 意味 着 它 是 对 具体 的 应 用 的 性 能 有 益 。 任 何 给 定 的 物理 设计 都 是 
对 某 些 应 用 有 益 而 对 其 他 的 应 用 没 好 处 (根据 性 能 来 说 ) 。 例 如 ， 假 定 每 一 个 基本 关系 变量 确实 
映射 到 一 个 物理 存储 文件 ， 并 且 还 假定 每 一 个 物理 存储 文件 包括 一 组 物理 上 相 邻 的 存储 记录 ， 每 
一 个 记录 对 应 一 个 相应 的 关系 变量 上 的 元 组 。 那 么 
= 假定 将 供应 商 、 发 货 量 和 零件 的 连接 作为 一 个 基本 关系 变量 ， 并 因此 给 出 一 个 存储 文件 。 
那么 “取出 提供 红色 零件 的 供应 商 的 详细 信息 ”的 查询 可 能 会 在 这 种 物理 结构 下 运行 得 
较 好 。 
a 然而 ,“ 取 出 在 伦敦 的 供应 商 的 详细 信息 ”的 查询 在 这 种 物理 结构 下 ， 将 比 使 用 三 个 基本 
关系 变量 并 且 将 它们 映射 到 三 个 物理 上 分 离 的 存储 文件 中 的 结果 要 差 。 原 因 是 在 后 一 个 设 
计 中 ， 所 有 的 供应 商 的 信息 将 被 在 物理 上 邻接 地 存储 ; 然而 在 前 一 个 设计 中 ， 它 们 在 物理 
上 分 散 于 一 个 较 大 的 空间 中 ， 因 此 将 需要 更 多 的 VO 操作 。 类 似 的 结论 也 适用 于 任何 其 他 
的 只 访问 供应 商 、 只 访问 零件 或 只 访问 发 货 量 的 查询 ， 而 不 适用 于 一 些 连 接 的 查询 。 


13.6 正 交 设计 


本 节 我 们 接着 参考 文献 [13. 12] 简要 地 讨论 另外 一 种 数据 库 设 计 的 原理 ， 一 个 在 本 质 上 不 
是 进一步 规范 化 的 设计 原理 ， 但 它 确实 与 规范 化 很 相像 ， 因 为 它 至 少 是 很 科学 的 。 该 原理 称 为 正 
交 设 计 准 则 (The Principle of Orthogonal De- 














sign) 。 图 13-7 中 显示 了 一 种 对 供应 商 的 设计 ， | 在 ?is 的 供应 商 */ 

它 显然 不 够 好 ， 但 是 很 可 能 存在 这 种 设计 ; 在 |s*| st sae | sarvs | crmY _ 

这 个 设计 中 ， 关 系 变量 SA 对 应 于 那些 居住 在 

Paris 的 供应 商 ， 关 系 变量 SB 对 应 于 那些 或 不 ”| 
居住 在 巴黎 ， 或 状态 大 于 30 的 供应 商 (不 严 |sB | s+ | SRAME |sTATUs | CITY | ?3? 宛 全 
格 地 说 ， 这 些 是 关系 变量 谓词 ) 。 如 图 中 所 示 ， 3 | Bake perso" | _ | 







S4 | CLark 
S5 | Adams 


/* 不 在 Paris 或 状态 为 30 的 供应 商 */ 


这 个 设计 导致 了 某 些 元 余 ; 更 具体 地 说 ， 供 应 
商 93 的 元 组 出 现 了 两 次 ， 每 个 关系 变量 各 一 
次 。 而 且 这 些 宛 余 又 导致 了 更 新 异常 。 

注意 ; 供应 商 是 53 的 元 组 会 在 两 个 关系 ”图 13-7 供应 商 : 不 好 但 可 能 存在 的 一 种 设计 
变量 中 都 出 现 。 相 反 ， 假 设 这 个 元 组 要 在 SB 
中 出 现 ， 而 不 在 SA 中 出 现 。 在 SA 中 应 用 封闭 世界 的 假设 ，SA 就 会 告诉 我 们 供应 商 53 并 不 在 
Paris ， 然 而 ，SB 告诉 我 们 供应 商 53 在 Paris。 换 名 话说， 这 将 产生 一 个 冲突 ， 并 且 数 据 库 会 变 得 
不 一 致 。 

当然 ， 在 图 13-7 中 的 设计 问题 是 很 明显 的 ， 正 是 由 于 允许 同样 的 元 组 在 两 个 截然 不 同 的 关 
系 变量 中 出 现 才 会 导致 这 样 的 问题 。 换 名 话说， 这 两 个 关系 变量 有 相互 重 释 的 含义 ， 即 可 能 出 现 


20 
S3 | Blake 30 
20 
30 
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对 同一 个 元 组 满足 两 个 关系 变量 谓词 的 情况 。 因 此 ， 有 如 下 的 显而易见 的 规则 : 

a 正 交 设计 准则 (最初 版本); 对 于 一 个 给 定 的 数据 库 ， 任 何 两 个 基本 关系 变量 不 应 该 有 重 

杖 的 含义 。 

要 点 如 下 : 

1) 回顾 一 下 第 10 章 ， 从 使 用 者 的 角度 看 ， 所 有 的 关系 变量 都 是 基本 关系 变量 (除了 作为 
简便 方式 才 定 义 的 关系 变量 之 外 )。 换 旬 话 说， 这 个 原理 适用 于 所 有 “可 表达 ”的 数据 库 的 设 
计 ， 而 不 只 限于 “真实 ”的 数据 库 一 一 这 就 是 所 谓 的 数据 库 相 对 性 原则 ( 当然 ， 类 似 的 观点 也 
适合 规范 化 理论 ) 。 

2) 注意 ， 两 个 关系 变量 可 能 并 没有 互相 重 登 的 含义 ， 除 非 它 们 是 同一 种 类 型 (也 就 是 说 ， 
除非 它们 有 相同 的 标题 ) 。 

3) 正 交 设计 准则 意味 着 : (举例 来 说 ) 当 插 人 一 个 元 组 时 ， 可 以 认为 这 个 操作 是 将 一 个 元 
组 插入 一 个 数据 库 而 不 是 插入 一 个 具体 的 关系 变量 -一 因为 最 多 有 一 个 关系 变量 是 满足 新 元 组 揪 
入 谓词 的 。 

现在 ， 我 们 简要 阐述 一 下 最 后 一 个 要 点 。 当 插入 一 个 元 组 时 通常 要 指定 元 组 插入 的 关系 变量 
RR 的 名 字 。 但 是 ， 这 并 不 与 前 面 的 观点 矛盾 。 事 实 上 ， 名 字 R 只 是 相应 的 谓词 ， 比 如 PR 的 简 
写 ; 真实 的 意思 是 说 “插入 元 组 !， 并 且 1 满足 谓词 PR"。 更 进一步 讲 ，R 有 可 能 是 一 个 视图 ， 
可 能 是 由 4 与 B 的 并 集 表达 式 来 定义 的 视图 ， 并 且 正 如 在 第 10 章 所 见 的 ， 系 统 如 果 能 知道 新 的 
元 组 是 插入 4、B8， 还 是 都 插入 ， 那 么 将 是 最 好 不 过 的 。 

事实 上 ， 与 上 面 的 论述 类 似 的 观点 也 适用 于 其 他 所 有 的 操作 ; 在 所 有 的 情况 下 ， 关 系 变量 名 
字 实际 上 都 只 是 关系 变量 谓词 的 简写 。 当 表示 数据 语义 这 样 的 观点 时 ， 不 应 该 太 强调 这 是 谓词 ， 
而 不 仅 是 名 字 。 

到 现在 为 止 还 没有 讨论 完 正 交 设 计 准则 一 一 
还 有 一 个 很 重要 的 细 化 工作 要 做 。 考 虑 图 13-8， - 
它 显示 了 有 关 供 应 商 的 另 一 个 不 好 但 却 可 能 存在 Smith|London 
的 设计 。 其 中 存在 两 个 关系 变量 ， 它 们 本 身 并 不 Blake Blake Paris 
包含 重合 含义 ， 但 是 它们 在 { S#, SNAME| 上 Adams Rdams |Athens 
的 投影 确实 出 现 了 重生 《事实 上 ， 这 两 个 失 由 
的 含义 是 类 似 的 ) 。 因 此 ， 如 果 想 插入 一 个 元 组 -8 有 关 供应 商 的 另 一 昌 
(S6，Lopez) 到 一 个 由 这 两 个 投影 的 并 集 定义 却 可 能 存在 的 设计 
的 视图 中 就 会 引起 元 组 ($6，Lopez，!) 被 插入 到 SX 中 、 元 组 (S6，Lopez，c) 被 插入 到 SY 
中 (其 中 :和 < 都 是 可 用 的 默认 值 ) 。 很 明显 ， 正 交 设计 准则 需要 扩展 以 便 将 图 13-8 中 的 问题 考 
虑 进去 : 

s 正 交 设计 准则 (最 终 版 本 ) : 4 和 B 是 数据 库 中 任意 的 两 个 基 关 系 变量 。 那 么 并 不 存在 无 

损 分 解 将 4 和 B 分 别 分 解 为 41，…，Am 和 B1，…，Bn 使 在 A1，…，Am 中 的 某 些 投影 
Ai 和 在 B1，…，Bn 中 的 某 些 投影 一 有 重奏 的 含义 。 

要 点 如 下 : 

1) 术语 “无 损 分 解 ”在 这 里 是 其 通常 的 含义 一 一 即 分 解 为 一 组 投影 ， 使 得 : 

* 给 定 的 关系 变量 可 以 通过 将 投影 连接 回去 的 方法 重新 得 到 ; 

a 在 重新 连接 的 过 程 中 这 些 投影 中 没有 宛 余 的 项 。( 严格 地 说 ， 第 二 个 条 件 并 不 是 无 损 分 解 

所 必需 的 ， 但 是 如 我 们 在 第 12 章 所 见 ， 它 通常 是 有 用 处 的 。) 

2) 这 个 版 本 蕴涵 了 最 初 的 版 本 ， 因 为 关系 变量 R 就 是 其 本 身 的 一 个 投影 ， 因 此 无 损 分 解 是 
肯定 存在 的 。 

深入 观察 

下 面 给 出 一 些 关于 正 交 设计 准则 的 评论 。 

1) 首先 ， 术语 “ 正 交 ” 一 取 自 这 一 设计 准则 的 实际 含义 ， 即 基本 关系 变量 是 互相 独立 的 
(没有 重奏 含义 ) 。 当 然 ， 这 个 准则 是 常识 性 的 ， 但 它 是 形式 化 意义 上 的 常识 《就 如 同 规范 化 理 





EE 
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论 一 样 ) 

2) 假定 以 一 个 通常 的 供应 商 关 系 变量 S 开始 ， 但 是 为 了 设计 的 原因 将 这 个 关系 变量 分 解 为 
一 组 投影 。 那 么 正 交 设计 准则 会 告诉 我 们 这 些 投影 应 该 都 是 互 不 相交 的 ， 在 这 种 意义 上 讲 ， 没 有 
一 个 供应 商 的 元 组 会 出 现在 多 于 一 个 的 投影 中 。( 当然 ， 这 些 投影 的 并 必须 能 够 还 原 原 始 的 关系 
变量 。) 这 种 分 解 称 为 正 交 分 解 。 

3) 正 交 设计 的 总 体 目标 是 减少 元 余 ， 并 因此 避免 更 新 异常 (也 与 规范 化 类 似 )。 事 实 上 ， 
它 补充 了 规范 化 理论 ， 不 严格 地 说 ， 规 范 化 在 关系 变量 中 减少 了 宛 余 ， 而 正 交 性 在 关系 变量 之 间 
减少 了 宛 余 。 

4) 正 交 性 可 能 是 一 个 常识 ， 但 是 它 在 实践 中 经 常 不 受 重视 (事实 上 ， 这 种 不 受 重视 的 看 法 
有 时 甚至 是 受 推崇 的 ) 。 像 下 面 的 这 个 设计 是 很 常见 的 ， 它 取 自 金融 数据 库 : 

ACTIVITIES 2001 { ENTRY#, DESCRIPTION, AMOUNT, NEW_BAL 


ACTIVITIES 2002 { ENTRY#, DESCRIPTION, AMOUNT, NEW BAL 
ACTIVITIES 2003 { ENTRY#, DESCRIPTION, AMOUNT, NEW_ BAL 
{ 
{ 


ACTIVITIES 2004 { ENTRY#, DESCRIPTION, AMOUNT, NEW BAL 
ACTIVITIES 2005 { ENTRY#, DESCRIPTION, AMOUNT, NEW_BAL 


事实 上 ,将 含义 编 信 (关系 变量 或 其 他 的 名 字 ) 违反 了 信息 原则 (The Information Principle ) ， 
这 个 准则 提出 ， 所 有 的 数据 库 信息 必须 显 式 地 根据 值 的 方法 而 不 能 用 其 他 方法 来 表示 。 
5) 如 果 4 和 下 是 同一 类 型 的 基本 关系 变量 ， 根 据 正 交 设 计 准 则 蕴涵 着 : 


~ 


A UNION B : 总 是 一 个 不 相交 的 并 集 
A INTERSECT B : 总 是 空 的 
A MINUS B : 总 是 等 于 A 


13. 7 其 他 的 规范 化 形式 


再 回 到 对 规范 化 的 讨论 。 在 第 12 章 的 引言 中 提 到 过 ， 除 了 这 几 章 讨论 的 范式 ， 确 实 存在 其 
他 的 规范 化 形式 。 实 际 情况 是 ， 规 范 化 理论 和 有 关 问 题 (现在 通常 被 认为 是 依赖 理论 ) 已 经 发 
展 为 一 个 拥有 大 量 文献 著作 的 相当 可 观 的 领域 。 这 个 领域 的 研究 在 不 断 继续 、 深 入 。 有 关 这 方面 
的 更 深入 的 讨论 已 超出 本 章 的 范围 ， 这 个 领域 的 研究 (20 世纪 80 年 代 中 期 的 研究 ) 的 综述 参见 
[13. 18] ， 近 期 研究 的 综述 参见 [11.1] 和 [11.3]。 在 这 里 只 提 几 个 具体 的 间 题 。 

1) 域 码 (domain-key) 范式 : 域 码 范式 (DKANF) 在 参考 文献 【13. 16] 中 由 Fagin 提出 。 
DK/NF (与 所 讨论 过 的 规范 化 形式 不 同 ) 根本 不 是 根据 函数 依赖 、 多 值 依赖 或 连接 依赖 而 定义 
的 。 相 反 ， 当 且 仅 当 一 个 关系 变量 RR 中 的 每 一 个 约束 都 是 RR 中 所 应 用 的 域 约束 和 码 约 束 的 合理 
结果 时 ， 称 有 尺 属于 DK/NF。 

a 域 约束 (在 这 里 用 到 的 一 个 术语 ) 是 指 有 关 指 定 属性 值 从 一 些 规定 的 域 中 取 值 的 约束 

(在 第 9 章 的 术语 中 ， 这 样 的 约束 是 一 个 属性 约束 而 不 是 一 个 域 约束 ) 。 
= 码 约束 是 有 关 某 一 个 特定 的 属性 或 属性 组 构成 的 候选 码 的 约束 。 
满足 一 个 DK/NF 关系 变量 上 的 约束 因此 在 概念 上 显得 很 简单 ， 既 然 足 以 满足 “ 域 ” 
(属性 ) 和 码 约束 ， 那 么 所 有 的 其 他 约束 就 会 自动 地 被 满足 。 还 要 注意 在 这 里 “所 有 的 其 
他 约束 ”意味 着 不 止 是 函数 依赖 、 多 值 依赖 和 连接 依赖 。 事 实 上 ， 它 代表 整个 关系 变量 
谓词 。 

Fagin 在 文献 [13.161 中 提出 ， 任 何 DKANF 关系 变量 都 必须 属于 SNF (并 且 内 此 也 属于 
4NF 等 ) 。 事 实 上 在 (3,， 3) 范式 中 也 是 如 此 (参见 第 2 点 ) 。 然 而 ，DKZNF 并 不 是 经 常 可 以 达 
到 的 ， 而“ 何 时 能 够 达到 ”的 问题 也 没有 解决 。 

2) “选择 - 并 ”(restriction-union〉 范式 : 再 次 考虑 供应 商 关 系 变量 S。 规 范 化 理论 告诉 我 
们 ， 关 系 变量 S 是 一 种 “好 ”的 范式 ; 事实 上 ， 它 属于 5NF， 并 且 可 以 通过 投影 的 方式 消除 异 
常 。 但 是 为 什么 将 所 有 的 供应 商 放 在 一 个 单独 的 关系 变量 中 呢 ? 如 果 设 计 将 伦敦 的 供应 商 放 人 一 
个 关系 变量 (如 LS) 中 ,而 将 巴黎 的 供应 商 放 和信 另 一 个 (如 PS) 关系 变量 中 ， 等 等 ， 这 样 的 关 
系 变量 可 不 可 以 呢 ? 换 句 话说 ， 可 不 可 以 将 原来 的 供应 商 的 关系 变量 按 选择 来 分 解 而 不 是 通过 投 
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影 来 分 解 呢 ? 这 样 的 设计 结果 将 是 好 的 还 是 不 好 的 呢 ? (事实 上 几乎 可 以 肯定 它 是 不 好 的 
见 第 8 章 中 习题 8. 8 一 -但 是 经 典 的 规范 化 标准 化 理论 对 此 类 问题 没有 触及 ) 。 

因此 ， 对 于 规范 化 研究 的 另 一 个 方向 就 是 研究 通过 非 投影 方式 对 关系 变量 进行 分 解 的 问题 。 
在 这 个 例子 中 ,已 经 提 到 分 解 运算 符 是 选择 ;而 相应 的 合成 运算 符 是 并 。 因 此 ， 构 建 一 个 类 似 投 
影 - 连接 规范 化 理论 的 “选择 - 并 ”规范 化 理论 是 可 行 的 ? 。 就 本 书 作者 的 了 解 ， 还 没有 任何 
这 样 的 理论 被 详细 地 提出 来 ， 但 是 一 些 最 初 的 观点 可 以 在 Smith 的 论文 [13.32] 中 找到 ， 在 其 
中 定义 了 一 个 称 为 “ (3，3) 范式 ”的 新 型 范式 。(3，3) 范式 蕴涵 了 BCNF 范式 ; 然而 ， 一 个 
(3，3) 范式 关系 变量 不 必 属 于 4NF，4NF 也 不 必 属 于 (3，3) 范式 ， 所 以 〈 如 上 面 表明 的 ) 扒 
演 到 (3，3) 范式 是 和 推演 到 4NF (和 5NF) 相互 正 交 的 。 对 此 观点 的 深层 研究 出 现在 文献 
[13.15] 和 [13.23] 中 。 正 交 设 计 准则 也 与 此 相关 [13. 12] (因此 正 交 设计 最 终 可 以 被 看 作 是 
一 种 规范 化 ) 。 

3) 第 六 范式 : 如 果 限 于 考虑 传统 的 投影 和 连接 ， 那 么 SNF 是 最 终 的 范式 。 但 是 在 第 23 章 
将 看 到 ， 我 们 可 能 (并且 需 要 ) 定义 : (a) 这 些 操作 的 一 般 化 形式 ; (b) 连接 依赖 的 一 般 化 形 
式 ; (e) 一 个 新 的 (第 六 ) 范式 ，6NF。 注 意 ， 使 用 “第 六 范式 ”作为 它 的 名 字 是 合理 的 ， 因 
为 6NF 确实 在 从 INE，2NF… 到 SNF 的 路 上 前 进 了 一 步 。 而 且 ， 所 有 符合 6NF 的 关系 变量 必然 
属于 5NF。 详 细 的 说 明 见 第 23 章 。 


13.8 小 结 


本 章 完 成 了 关于 进一步 规范 化 理论 的 讨论 (从 第 12 章 开 始 )。 本 章 讨论 了 多 值 依 赖 
(MVD) ， 多 值 依 赖 是 一 种 一 般 化 的 函数 依赖 ; 还 讨论 了 连接 依赖 ( 卫 ) ， 它 是 多 值 依赖 的 一 般 
化 形式 。 大 致 地 说 : 

sm 一 个 关系 变量 Ri14,B,CI 满 足 多 值 依赖 4 一 ”8B1 C， 当 且 仅 当 一 组 8 值 与 一 给 定 的 14， 

C 对 匹配 与 否 ， 只 依赖 于 4 的 值 ; 对 C 与 {4，B| 的 情况 也 是 如 此 。 这 样 的 一 个 关系 
变量 可 以 被 无 损 分 解 为 它 在 14，B1 和 14，C} 上 的 投影 ;事实 上 ， 多 值 依赖 是 这 种 分 
解 的 充 要 条 件 〈Fagin 定理 ) 。 

m 一 个 关系 变量 REA,B,… ,Z| 满足 连接 依赖 *{4,B8,…,Z| ， 当 且 仅 当 它 与 它 在 4, 有 日 …,Z 上 

的 投影 的 连接 结果 相等 。 这 样 的 一 个 关系 变量 (显然 ) 可 以 被 无 损 分 解 为 这 些 投影 。 

一 个 关系 变量 属于 4NFE， 仅 当 它 满足 的 非 平 凡 多 值 依赖 是 非 超 码 的 函数 依赖 。 一 个 关系 变量 
属于 5NF 一 一 也 称 为 投影 - 连接 范式 ， 即 PJANF 一 一 当 且 仅 当 它 满足 的 非 平凡 连接 依赖 是 非 超 码 
的 函数 依赖 (意思 是 如 果 连 接 依 赖 是 * {14，B，…，Z|， 那么 A4，B8B,…，Z 中 每 一 个 都 是 超 
码 )。5NF (总 可 以 达到 的 ) 是 关于 投影 和 连接 运算 的 最 终 范 式 。 

我 们 还 讨论 了 规范 化 过 程 ， 给 出 了 非 形式 化 的 步骤 和 一 些 相关 的 解释 。 然 后 描述 了 正 交 设 计 
准则 : 大 致 上 说 ， 不 应 该 有 两 个 关系 变量 有 含义 互相 重奏 的 投影 。 最 后 ， 简 单 地 提 到 了 一 些 其 他 
的 范式 。 

综 上 所 述 ， 应 该 指出 ， 对 上 面 所 讨论 的 这 些 问题 的 研究 是 很 有 意义 的 。 原 因 是 “进一步 规 
范 化 ”( 或 习惯 地 称 为 依赖 理论 的 研究 ) 确实 描绘 出 了 数据 库 设 计 这 一 领域 的 一 些 科 学 规律 ， 因 
为 数据 库 设 计 以 往 太 过 工艺 化 〈 即 太 过 主观 ， 缺 少 坚实 的 理论 和 方针 ) 。 因 此 ， 在 依赖 理论 的 研 
究 上 取得 的 任何 成 就 都 是 值得 称道 的 。 


习题 
13.1 本 章 讨论 的 关系 变量 CTX 和 SPJ (参见 图 13-2 和 图 13-4) 各 自满 足 一 个 特定 的 MVD 和 一 个 特定 的 





参 





MVD 和 DD。 给 出 微 积 分 和 代数 两 种 形式 。 
13.2 假定 C 是 一 个 俱乐部 ， 关 系 变 量 R 14，B| 满足 ， 当 且 仅 当 a 和 45 都 是 C 的 一 员 时 , 元 组 (a, 5b) 





”Fagin 最 初 在 参考 文献 [13. 15] 中 确实 把 5NF 称 为 投影 - 连接 范式 ， 因 为 该 范式 是 关于 投影 和 连接 运算 符 的 。 
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才 出 现在 R 中。 那么 RK 满足 什 么 样 的 FPD、MVD 和 JD? R 属于 第 几 范 式 ? 





13.3 ”有 一 个 包含 推销 员 、 推 销 地 和 产品 的 数据 库 。 每 一 个 推销 员 负 责 在 一 个 或 多 个 地 区 推销 ; 每 一 个 地 
区 都 有 一 个 或 多 个 推销 员 。 同 样 ， 每 一 个 推销 员 负责 推销 一 个 或 多 个 产品 ， 每 一 个 产品 可 以 有 一 个 
或 多 个 推销 员 。 每 -一 个 产品 都 在 每 一 个 地 区 售卖 ; 然而 ， 没 有 两 个 推销 员 在 同一 地 区 销售 同一 产品 。 
每 一 个 推销 员 在 每 一 个 地 区 卖 他 负责 卖 的 同一 组 产品 。 对 这 些 数 据 设 计 一 组 合适 的 关系 变量 。 

13.4 在 第 12 章 12.5 节 中 给 出 了 一 个 将 任意 的 关系 变量 R 无 损 分 解 为 一 组 BCNF 关系 变量 的 算法 。 修 改 
这 个 算法 ， 使 其 能 产生 4NF 的 关系 变量 。 

13.5 (对 习题 13. 3 的 修改 ) 有 一 个 包含 推销 员 、 推 销 地 和 产品 的 数据 库 。 每 一 个 推销 员 负责 在 一 个 或 多 
个 地 区 推销 ; 每 一 个 地 区 都 有 一 个 或 多 个 推销 员 。 同 样 ， 每 一 个 推销 员 负 责 推 销 一 个 或 多 个 产品 ， 
每 -个 产品 可 以 有 一 个 或 多 个 推销 员 。 最 后 ， 每 一 个 产品 都 在 一 个 或 多 个 地 区 售卖 ,每 一 个 地 区 孝 
有 一 个 或 多 个 产品 在 此 售卖 。 而 且 ， 如 果 推 销 员 尺 负责 4 地 区 ， 产品 P 在 4 地 区 售卖 ， 并 且 推 销 员 
RR 负责 卖 产品 P， 那 么 六 在 4 地 区 卖 P 产 品 。 对 这 些 数据 设计 一 组 合适 的 关系 变量 。 

13.6 假定 用 下 面 两 个 关系 变量 SX 和 SY ( 见 13.6 节 中 的 图 13-8) 表达 供应 商 : 
SX { S#, SNAME, STATUS } 
SY { S#¥, SNAME, CITY } 
这 一 设计 符合 本 章 及 前 一 章 描述 的 规范 化 指导 方针 吗 ? 证 明 你 的 回答 。 
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用 来 决定 一 个 给 定 的 连接 依赖 是 否 是 一 组 给 定 的 函数 依赖 的 合理 结果 〈 参 见 [13. 18] 中 的 一 个 
相关 的 例子 ) 。 这 个 问题 是 与 如 下 的 问题 等 价 的 ， 即 在 给 定 的 一 组 本 数 依赖 下 ， 判 定 一 给 定 分 解 
是 否 是 无 损 的 。 这 篇 论文 还 讨论 了 将 这 个 算法 扩展 ， 来 处 理 给 定 的 依赖 是 多 值 依赖 而 不 是 顺 数 
依赖 的 问题 。 
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Multi- Valued Dependencies,” Proc. 1977 ACM SIGMOD Int. Conf on Management of Data, Toronto, 
Canada ( August 1977 ) . 

Armstrong [11.2] 的 扩展 是 在 其 中 包括 了 多 值 依赖 和 联 数 依赖 。 特 别 地 ， 它 给 出 了 下 面 一 
组 正确 而 完整 的 多 值 依赖 的 参考 规则 : 

1) 互补 律 (Complementation) ; 如果 A、B 和 C 中 包含 了 关系 变量 的 所 有 属性 ， 并且 A 是 
BNMC 的 父 集 ， 那么 4 -> B， 当 且 仅 当 4 一 C。 

2) 自 反 律 (Reflexivity) : 如 果 B 是 4 的 子 集 ,， 则 A 一 >B。 

3) 增 广 律 (Augmentation) ; 如 果 A 一 BB, 并 且 C 是 DD 的 一 个 子 集 ， 那么 AD 一 > BC。 

4) 传递 律 (Transitivity) : 如 果 4 一 3B,， 并 且 B 一 >》C， 那么 , 4 一 >C-B。 

下 面 的 规则 是 从 上 面 的 规则 中 推导 出 来 的 : 

5) 伪 传 递 性 (Pseudotransitivity): 如 果 A 一 8B, 并 且 8C 一 DD,， 那么 AC 一 DD -BC， 

6) 并 (Union); 如 果 A 一 >B, 并 且 A 一 >C， 那 么 A 一 人 BC。 

7) 分 解 (Decomposition): 如 果 4 一 一 BC， 那 么 4 一 全 8BmnC， 4 一 B-C, 并 且 4 一 > 
C-B。 

该 论文 随后 给 出 了 如 下 涉及 MVD 和 FD 混合 的 两 条 规则 : 

8) 复制 (Replication) : 如 果 4 一 8， 那 么 4 一 一 B。 

9) 合并 (Coalescence) : 如 果 4 一 一 8， 并 且 CD, DD 是 B 的 一 个 子 集 ，BMC 为 空 ， 那 
么 4 一 D。 

Armstrong 的 规则 [11.2] 再 加 上 上 面 的 规则 1~4 和 8 -9 就 形成 了 一 个 正确 而 又 完整 的 也 
数 依赖 和 多 值 依赖 的 推理 规则 。 

这 篇 论文 还 推导 出 一 个 更 有 用 的 相关 函数 依赖 和 多 值 依赖 规则 : 

10) 如 果 A 一 8 并 有 4B 一 一 C， 则 A 一 C -8B。 
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早期 提出 “ 泛 关 系 ”接口 的 尝试 〈( 见 参考 文献 【13.201) ， 只 处 理 了 检索 操作 。 这 篇 论文 
还 提出 处 理 更 新 操作 的 方法 。 
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参见 [13.20] 的 注释 。 

C. 1. Date Will the Real Fourth Normal Form Please Stand Up?” in C.J. Date and Hugh Darwen, Re- 
lational Database Writings 1989 - 1991. Reading, Mass. : Addison- Wesley (1992). 

引 自 这 篇 论文 的 摘要 : “在 数据 库 设计 中 ， 存 在 好 几 种 对 第 四 范式 (4NF) 截然 不 同 的 解 
释 。 本 文 的 目的 就 是 试图 澄清 这 些 问题 。” 也 许 应 该 附加 说 明 在 本 章 中 称 为 4NF 的 概念 是 仪 指 真 
正 的 4NF…… 不 允许 任何 替代 品 ! 

C.J. Date “The Normal Is So.…-Interesting” (in tow parts) ,DBP&D 10 , Nos. 11 -12( November-De- 
cember 1997 ), 

在 13.5 节 中 讨论 的 逆 规 范 化 问题 取 自 这 篇 论文 。 下 面 是 另外 几 个 观点 : 

甚至 在 只 读数 据 库 中 ， 标 明 一 个 完整 性 约束 也 是 必要 的 ， 因 为 它们 定义 了 数据 的 含义 ， 

并 且 (正如 在 13.4 节 中 所 注 明 的 ) 它们 的 不 可 逆 规 范 性 又 提供 了 一 个 标明 特定 重要 约束 
的 简单 方法 。 如 果 数 据 库 不 是 只 读 的 ， 那 么 不 可 逆 规 范 性 同样 提供 了 一 种 满足 这 些 约束 
的 简单 的 方法 。 

m 逆 规 范 化 蕴含 了 元 余 的 增加 一 一 但 是 (与 普遍 的 观点 相反 )， 增 加 元 余 并 不 一 定 缠 涵 道 

规范 化 ! 许多 作者 都 陷 和 人 了 这 个 圈套 ， 有 一 些 作者 还 在 重 蹈 覆 斩 。 

下 作为 一 个 普遍 的 规则 ， 逆 规范 化 〈 即 在 逻辑 层 的 逆 规范 化 ) 应 该 作为 “ 仅 当 所 有 其 他 的 

方法 失败 ”[4. 17] 时 的 一 种 性 能 策略 ( performance tactic) 来 使 用 。 
C.J. Date: “ The Final Normal Form!” (in two parts ) ，DBP& D 11, Nos. 1 -2(January- February 
1998 ) . 
一 篇 关于 连接 依赖 和 5NF 的 教程 。 标 题 即 为 论述 的 主题 ( 见 第 23 章 ) 。 
C. 4. Date:“ What’s Normal, Anyway? ”DBP &D 11, No.3 (March 1998). 
对 某 些 “ 病 理学 的 ”的 规范 化 例子 的 综述 。 
C. J. Date:“ Normalization Is No Panacea,” DBP 4D 11, No.4 (April 1998). 

本 文 是 有 关 规 范 化 理论 不 能 解决 的 一 些 数据 库 设 计 问题 的 综述 。 这 篇 论文 并 不 是 一 篇 攻击 
性 的 文章 。 

C.J. Date: "Principles of Normalization,” http : //www. BRCommunity. com ( February 2003 ) ;htip: // 
www. dbdeburk. com (March 2003 ). 

本 文 是 一 篇 简短 的 指南 。 为 便于 参考 ， 总 结 出 以 下 几 点 原则 ; 

1) 一 个 非 5NF 关系 变量 可 以 被 分 解 为 一 系列 5NF 的 投影 。 

2) 连接 这 些 投影 可 以 重新 得 到 原始 的 关系 变量 。 

3) 分 解 过 程 应 该 保持 函数 依赖 。 

4) 重 构 过 程 用 到 了 所 有 的 投影 。 

5) (此 点 没有 前 四 点 严格 ) 当 所 有 关系 变量 均 属 于 SNF 时 ， 停 止 规范 化 过 程 。 

C.J. Date and Ronald Fagin:“Simple conditions for Guaranteeing Higher Normal Forms in Relational 
Databases, "in C.J. Date and Hugh Darwen, Relational Database Writings 1989 - 1991. Reading, 
Mass: Addison- Wesley(1992). Also published in ACM TODS 17 , No.3 (September 1992). 

如 果 a) 一 个 关系 变量 R 属 于 3NF 并 且 b) R 的 所 有 的 候选 码 都 是 简单 的 ， 那 么 R 自动 地 就 
属于 SNF。 换 句 话说 ， 在 这 个 关系 变量 中 没有 必要 担心 在 本 章 中 讨论 的 相对 复杂 的 问题 一 一 多 
值 依赖 、 连 接 依赖 、4NF 和 5NF。 注 意 : 这 篇 论文 还 证 明了 另 一 个 结论 ， 即 如 果 (a) R 是 属于 
BCNF 范式 ， 并 且 (b) 它 至 少 有 一 个 候选 码 是 简单 的 ， 那么 R 自动 属于 4NF， 但 并 不 一 定 属于 
SNF。 

C. J. Date and David McGoveran:“ A New Database Design Principle,” in C. 1. Date, Relational Data- 
base Writings 1991 - 1994. Reading, Mass: Addison- Wesley( 1995 ) . 
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C. Delobel and D. S$. Parker :” Functional and Multi- Valued Dependencies in a Relational Database and 
the Theory of Boolean Switching Functions,” Tech. Report No. 142, Dept. Maths. Appl. et Informa- 
tique, Univ. de Grenoble, France ( Novermber 1978 ) . 

将 [11.5] 的 结果 扩展 到 多 值 依赖 和 函数 依赖 。 
Ronald Fagin:” Multi- Valued Dependencies and a New Normal Form for Relational Databases,” ACM 
TODS 2, No.3 (September 1977). 

MVD 和 4NF 概念 的 出 处 。 注 意 : 这 篇 论文 还 讨论 了 嵌入 的 多 值 依赖 。 假 定 将 13. 2 节 的 关 
系 变量 CTX 扩展 到 包含 附加 的 属性 DAYS， 这 个 属性 代表 在 指定 的 课程 中 一 个 指定 的 教师 在 - 
本 指定 教材 上 所 花 的 天 数 。 将 这 个 关系 变量 称 为 CTXD， 下 面 是 一 个 实例 : 


CTXD | COURSE TEACHER TEXT DAYS 


























Physics 。 Basic Mechanics 
Physics 。 Principles of Optics 
Physics 。 Basic Mechanics 
Physics 。 Principles of Optics 
Math 。 Basic Mechanics 

Math 。 Vector Analysis 

Math 。 Trigonometry 


Ow 








i1COURSE，TEACHER，TEXT| 的 组 合 是 一 个 候选 码 ， 并 且 存 在 请 数 依赖 : 


{ COURSE, TEACHER, TEXT } 一 DAYS 


可 以 观察 到 这 个 关系 变量 是 属于 第 四 范式 的 ; 它 并 不 包括 任何 不 属于 函数 依赖 的 多 值 依赖 。 
然而 ， 它 确实 包括 两 个 媒人 的 多 值 依赖 (TEACHER 对 于 COURSE 和 TEXT 对 于 COURSE) 。 当 
“常规 ”的 多 值 依赖 A 一 一 B 在 RR 的 某 个 投影 中 存在 时 ， 在 关系 变量 R 中 存在 嵌 人 的 B 对 A 的 
多 值 依赖 。 常 规 的 多 值 依赖 是 嵌入 的 多 值 依赖 的 特例 ， 但 是 并 非 所 有 给 入 的 多 值 依赖 都 是 常规 
的 多 值 依赖 。 

正如 这 个 例子 所 示 ， 蔚 入 的 多 值 依 赖 与 常规 的 多 值 依赖 一 样 蕴涵 着 元 余 ; 然而 ， 这 个 元 余 
(通常 ) 不 能 通过 投影 消除 。 上 面 所 示 的 关系 变量 根本 不 能 被 无 损 分 解 为 它 的 投影 (事实 上 ， 它 
既 属 于 第 五 范式 也 属于 第 四 范式 ) ， 因 为 DAYS 依赖 于 所 有 的 三 个 属性 COURSE 、TEACHER 和 
TEXT， 并 且 ， 如 果 不 是 其 他 三 个 都 出 现 ， 它 也 不 能 在 关系 变量 中 出 现 。 因 此 这 两 个 戏 人 的 多 信 
依赖 可 以 标明 为 关系 变量 的 附加 的 显 式 约束 。 详 细 的 情况 作为 练习 。 

Ronald Fagin:“ Normal Forms and Relational Database Operators. ” Proc. 1979 ACM SIGMOD int Conf on 
Management of Data, Boston, Mass. ( May/June 1979). 

这 篇 论文 介绍 了 投影 - 连接 范式 (PJ/ANF， 或 5NF) 的 概念 ， 而 且 ， 其 中 还 不 止 这 些 。 可 
以 把 它 看 作 是 “经 典 的 ”规范 化 理论 的 定义 性 说 明 一 一 即 基于 将 投影 作为 分 解 的 操作 符 而 将 自 
然 连接 作为 相应 的 合并 的 操作 符 的 无 损 分 解 理论 。 

Ronald Fagin:“ A Normal Form for Relational Databases That Is Based on Domains and Keys. " ACM 
TODS 6, No.3 (September 1981 ) . 

Ronald Fagin:“ Acyclic Database Schemes( of Various Degrees): A Painless Introduction,” IBM Re- 
search Report RJ 3800( April 1983 ). Republished in G. Ausiello and M. Protasi (eds. ) Proc. CAAP83 
8th Colloguium on Trees in Algebra and Programming ( Springer-Verlag Lecture Notes in Computer Sci- 
ence 159). New York, N.Y. : Springer - Verlag (1983). 

本 章 的 13.3 节 中 介绍 了 满足 一 个 特定 的 有 环 约束 (cyclic constraint) 的 特定 的 三 重 关 系 变 
量 SPJ 如 何 被 无 损 分 解 为 它 的 三 个 二 元 投影 。 所 得 出 的 结果 数据 库 的 结构 被 称 为 是 有 环 的 ， 因 
为 这 三 个 关系 变量 中 的 每 一 个 都 和 其 他 两 个 有 一 个 相同 的 属性 〈 如 果 结 果 被 描述 为 一 个 超 图 ， 
在 这 个 超 图 中 边 代表 单独 的 关系 变量 ， 相 应 的 两 个 边 相交 汇 的 节点 是 这 两 个 边 的 共同 的 属性 ， 
那么 应 用 术语 “ 环 ” 的 原因 就 是 很 清楚 了 ) 。 与 之 相反 ， 实 践 中 的 大 多 数 结构 都 是 无 环 的 。 无 环 
(acyclic) 结构 有 很 多 有 环 结 构 所 不 具有 的 属性 。 在 这 篇 论文 中 ，Fagin 提供 并 解释 了 一 系列 这 样 
的 属性 。 

无 环 性 的 一 种 很 有 用 的 方法 如 下 : 正如 规范 化 理论 可 以 帮助 决定 何 时 一 个 单独 的 关系 变量 
可 以 用 某 种 方法 重 构 一 样 ， 无 环 性 理论 可 以 帮助 决定 何 时 一 组 关系 变量 可 以 用 某 种 方法 来 重 构 。 
R. Fagin and M. Y. Vardi:“ The Theory of Data Dependencies—A Survey,” IBM Research Report RJ4321 
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[13.19] 


[13. 20] 


[13.21] 
[13. 22] 


[13.23] 


[13. 24] 


锚 三 部 分 “ 孝 据 庚 褒 矿 


(June 1984 ). Republished in Mathematics of Information Processing: Proc. Symposia in Applied Mathe- 
matics 34, American Mathematical Society (1986). 

这 篇 论文 介绍 了 依赖 理论 在 20 世纪 80 年 代 中 期 的 简要 发 展 过 程 ( 注 意 :“ 依 赖 ” 存 这 里 并 
不 只 代表 函数 依赖 ) 。 特 别 是 ， 这 篇 论文 总 结 了 在 这 一 领域 的 三 个 特定 方面 的 主要 成 就 ， 并 且 提 
供 了 一 系列 经 过 仔细 选择 的 相关 参考 资料 。 这 三 个 方面 是 : (1) 缠 涵 (implication) 问题 ，(2) 
“ 泛 关系 ”模型 ，(3) 无 环 模式 。 蕴 涵 问 题 决定 的 是 ， 给 定 一 组 依赖 D 和 某 个 特定 的 依赖 4，4d 
是 否 是 D 的 一 个 逻辑 结果 。 泛 关系 模型 和 无 环 模式 在 文献 [13.20] 和 [13.17] 的 介绍 中 分 别 
简单 地 进行 了 讨论 。 
Ronald Fagin, Alberto O. Mendelzon, and Jeffrey D. Ullman:“ A Simplified Universal Relation As- 
sumption and Its Properties,” ACM TODS 7, No.3 (September 1982 ) . 

论文 中 假设 现实 世界 经 常 可 以 通过 “ 泛 关系 ”或 泛 关 系 变量 来 表示 [13. 20]， 它 满足 -个 
连接 依赖 和 一 组 函数 依赖 ， 并 且 探 索 了 这 种 假设 的 一 些 结果 。 
W. Kent: "Consequences of Assuming a Universal Relation. "ACM TODS 6, No 4 ( December 1981 ). 

泛 关 系 的 概念 用 几 种 不 同 的 方法 证 明了 它 自 身 。 首 先 ， 在 前 面 两 章 中 描述 的 规范 化 理论 都 
假设 定义 一 初始 的 泛 关系 (或 者 更 正确 地 说 ， 是 一 个 泛 关系 变量 ) 是 可 能 的 ， 这 个 关系 中 包括 
了 与 数据 库 有 关 的 所 有 属性 ， 并 且 还 描述 了 关系 变量 如 何 被 “更 小 ”( 较 低级 ) 的 投影 连续 代 
替 ， 直 到 达到 一 些 “ 好 的 ”结构 。 但 是 这 种 初始 的 假定 现实 或 合理 吗 ? 这 篇 论文 中 表明 ,无 论 
是 在 理论 上 还 是 实际 上 都 并 非 如 此 。 参 考 文献 [13. 33] 是 对 这 篇 论文 的 一 个 回答 ， 而 参考 文献 
[13.21] 是 对 这 个 回答 的 回答 。 

第 二 个 更 重要 的 泛 关 系 变量 概念 是 作为 一 个 用 户 界 面 表示 的 。 它 的 基本 观点 十 分 易 懂 ， 并 
且 事实 上 (从 直观 的 角度 ) 也 是 十 分 受 欢迎 的 ， 那 就 是 : 用 户 可 以 只 根据 属性 ， 而 不 是 根据 关 
系 变量 和 这 些 关系 变量 中 的 连接 设计 它们 对 数据 库 的 要 求 。 例 如 : 


STATUS WHERE COLOR = COLOR ('Red') 


(“取出 提供 红色 零件 的 供应 商 的 状态 " ) 。 在 这 一 点 上 会 引 来 两 种 不 同 的 解释 ; 

1) 一 种 可 能 情况 是 为 了 回答 这 个 查询 ， 系 统 应 该 自己 决定 选择 哪 一 个 逻辑 存 取 路 从 (特别 
是 选择 哪些 连接 ) 。 这 个 方法 在 参考 文献 [13.4] 中 有 讨论 (参考 文献 [13.4] 是 第 一 个 讨论 
“ 泛 关 系 ” 接 日 的 可 能 性 的 文章 ， 但 其 中 并 没有 用 这 个 术语 ) 。 这 种 方法 严格 地 依赖 于 属性 的 适 
当 命 名 。 例 如 ， 两 个 关于 供应 商 数量 的 属性 (分 别 在 关系 变量 S 和 SP 中 ) 必须 给 定 同一 个 名 
字 ; 相反 ， 供 应 商 的 城市 和 零件 的 城市 的 属性 (分 别 在 关系 变量 S 和 P 中) 一 定 不 能 是 同样 的 
名 称 。 如 果 违 反 了 这 两 个 规则 中 的 任 一 个 ， 系 统 就 无 法 正确 处 理 某 些 查 询 。 

2) 另 一 种 可 能 的 方法 是 简单 地 将 所 有 的 的 查询 看 成 是 根据 事先 定义 的 一 组 连接 一 一 由 数据 
库 中 所 有 的 关系 变量 的 相应 连接 形成 的 事先 定义 的 视图 一 一 形成 的 。 

毫 无 疑问 ， 无 论 哪 一 种 方法 都 简化 了 实际 中 许多 查询 的 表达 ， 而 且 这 样 的 方法 对 前 端 自然 
语言 查询 的 支持 是 十 分 重要 的 。 很 明显 ,该 方法 一 般 情况 下 必须 要 求 系统 能 够 显 式 指定 逻辑 ) 
存 取 路 径 。 考 虑 查询 : 


STATUS WHERE COLOR := COLOR ('Red') 


这 个 查询 的 意思 是 “取出 提供 非 红 色 的 零件 的 供应 商 的 状态 ”还 是 “取出 不 提供 红色 零件 的 供 
应 商 的 状态 ”? 不 论 是 哪个 ， 都 必须 有 表示 另外 的 一 个 查询 的 方法 〈 关 于 这 个 问题 ， 上 面 的 第 一 
个 例子 也 是 可 以 产生 歧义 的 :“ 取 出 只 提供 红色 零件 的 供应 商 的 状态 ) 。 这 里 还 有 第 三 个 例子 : 
“取出 在 同一 个 城市 的 一 对 供应 商 ” 。 显 然 一 个 显 式 的 连接 是 必要 的 〈 因 为 大 致 说 来 ， 这 个 问题 
包括 一 个 关系 变量 S 和 它 本 身 的 连接 ) 。 
William Kent,“The Universal Relation Revisited,” ACM TODS 8 ,NO. 4(December 1983 ) . 
Henry F. Korth et al. : “System/U: A Database System Based on the Universal Relation Assumption ，” 
ACM TODS 9, No. 3 (September 1984). 

这 篇 文章 描述 了 理论 、DDL、DML 和 一 个 在 斯 坦 福 大 学 开发 的 实验 性 的 “ 泛 关系 ”系统 的 
实现 。 
David Maler and Jeffrey D. Ullman.: “Fragments of Relations,” Proc. 1983 SIGMOD Int. Conf. on Man- 
agement of Data, San Jose, Calif. (May 1983 ) . 
David Maier, Jeffrey D. Ullman, and Moshe Y. Vardi; “On the Foundations of the Universal Relation 
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Model,” ACM TODS 9, No.2 (June 1984). An earlier version of this paper, under the title “The Re- 
venge of the JD,” appeared in Proc. 2nd ACM SIGACT-SIGMOD Symposium on Principles of Database 
Systems, Atlanta, Ga. (March 1983 ) . 
David Maier and Jeffrey D. Ullman.: “ Maximal Objects and the Semantics of Universal Relation Data- 
bases,” ACM TODS 8, No. 1 (March 1983). 
最 大 对 象 maximal objects 表示 了 一 个 在 “ 泛 关系 ”系统 中 当 基 本 结构 不 是 无 环 的 情况 下 出 
现 的 歧义 问题 的 解决 方法 〈 见 参考 文献 【13.17] ) 。 一 个 最 大 对 象 对 应 一 个 无 环 结构 的 全 属性 的 
一 个 预先 声明 的 子 集 。 这 样 的 对 象 用 来 指导 查询 的 翻译 ， 和 否则 查询 的 含义 就 会 出 现 歧义 。 
丁 - M. Nicolas: “ Mutual Dependencies and Some Results on Undecomposable Relations,” Proc. 4 由 
Int. Conf on Very Large Data Bases，Berlin ，Federal German Republic ( September 1978 ) . 
本 文 介 绍 了 “相互 依赖 ” ( mutual dependency) 的 概念 。 相 互 依赖 实际 上 是 普通 连接 依赖 
的 一 个 特例 〈 即 它 是 一 个 连接 依赖 ， 但 并 不 是 一 个 多 值 依赖 或 函数 依赖 ) ， 它 碰巧 包含 二 个 投影 
(与 在 13. 3 节 中 给 出 的 “3D 约束 ”的 例子 相似 ) 。 这 与 第 12 章 中 讨论 的 共有 依赖 的 概念 毫 无 
关系 。 
Sylvia L. Osborn: “Towards a Universal Relation Interface,” Proc. Sth Int Conf on Very Large Data 
Bases，Rio de Janeiro ，Brazil ( October 1979 ) . 
这 篇 论文 提出 了 一 个 假定 ， 如 果 对 一 个 给 定 的 查询 可 以 提供 候选 答案 的 “ 泛 关 系 ” 系 统 中 
有 两 个 或 多 个 连接 的 结果 ,那么 好 的 回答 是 所 有 这 些 候选 答案 的 并 集 。 并 给 出 了 产生 这 样 的 连 
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第 14 章 语义 建 模 
14.1 引言 


从 20 世纪 70 年 代 末 期 开始 ， 语 义 建 模 就 成 为 一 个 研究 课题 。 这 项 研究 的 动力 ， 即 研究 者 试 
图 解决 的 问题 是 ， 典 型 的 数据 库 系 统 对 数据 在 数据 库 中 的 含义 的 理解 是 非常 有 限 的 : 它们 通常 可 
以 “理解 ” 某 些 简单 的 数据 值 ， 以 及 这 些 值 的 某 些 简单 约束 。 但 是 对 其 他 方面 的 理解 却 很 少 
(所 有 复杂 的 解释 都 要 用 户 自己 去 完成 ) 。 显 然 ， 系 统 理解 得 越 多 越 好 ,” 这 样 它们 就 会 对 用 户 的 
交互 行为 反应 更 智能 化 ， 并 且 会 支持 更 复杂 的 用 户 界面 。 例 如 :SQL 应 该 能 明白 零件 的 重量 和 
发 货 的 数量 在 含义 上 的 区 别 。 虽 然 这 两 个 都 是 数字 值 ， 但 在 类 型 上 是 有 差别 的 一 一 即 在 语义 上 是 
不 同 的 。 因 此 ， 在 这 种 情况 下 ， 如 果 对 零件 和 发 货 量 按照 重量 和 数量 相 匹 配 的 条 件 进行 连接 ， 那 
么 它 即 使 没有 被 立即 拒绝 也 至 少 应 该 受到 质疑 。 

当然 ， 这 个 具体 的 例子 与 域 的 概念 非常 有 关系 。 这 个 例子 显示 了 现在 的 数据 模型 并 非 完全 与 
语义 特征 无 关 。 例 如 ， 初 始 定 义 的 域 、 候 选 码 和 外 部 码 都 是 关系 模型 的 语义 特征 。 换 名 话说 ， 这 
些 年 来 发 展 的 注重 语义 问题 的 “扩展 ”数据 模型 只 是 稍微 地 比 以 前 的 数据 模型 增加 了 一 些 语义 
而 已 (解释 参见 [14.7] 中 Codd 的 文章 ) 。 理 解数 据 含义 是 一 个 永远 不 会 停止 的 任务 ， 这 个 领 
域 也 会 随 着 人 们 对 其 理解 的 加 深 而 不 断 发 展 。 语 义 模型 这 个 概念 经 常 被 用 于 代表 一 个 或 多 个 
“扩展 的 ”模型 ， 并 非 由 于 它 易 于 代表 这 种 模型 ， 而 是 因为 它 有 助 于 模型 理解 所 涉及 的 问题 的 所 
有 语义 。 另 一 方面 , “语义 建 模 ” 是 对 试图 表示 语义 的 所 有 行为 的 一 个 恰当 称呼 。 在 这 一 章 中 ， 
我 们 首先 对 这 些 行为 中 潜在 的 一 些 思想 进行 简单 的 介绍 ; 然后 深入 地 探讨 一 种 具体 的 方法 : 即 实 
体 / 联 系 方法 〈 实 际 中 最 常用 的 方法 ) 。 

语义 建 模 有 许多 称呼 ， 包 括 数据 建 模 、 实 体 / 联 系 建 模 、 实 体 建 模 和 对 象 建 模 。 之 所 以 称 之 
为 语义 建 模 有 以 下 原因 : 

a 不 用 “数据 建 模 ” 这 个 概念 是 因为 (a) “数据 建 模 ”这 个 概念 与 前 面 所 提 到 的 用 结构 、 
完整 性 和 操作 等 组 成 的 正式 系统 的 “数据 建 模 ” 概 念 相抵 触 ，(b) 数据 建 模 这 个 概念 有 
可 能 会 导致 一 种 普 记 的 错误 思想 ， 即 一 个 数据 模型 只 包括 数据 结构 。 注 意 : 这 与 在 第 1 章 
1.3 节 中 所 提 到 的 数据 模型 概念 有 两 个 不 同 含义 的 说 法 是 相关 的 。 前 面 的 概念 是 通常 的 数 
据 模 型 (在 这 个 意义 上 关系 模型 是 一 个 数据 模型 ) 。 而 第 二 种 则 是 一 些 具体 的 企业 的 固定 
的 数据 模型 。 在 本 书 中 并 不 包括 第 二 种 含义 ， 而 在 其 他 书 中 是 可 能 包括 的 。 

不 用 “实体 /联系 建 模 ”的 原因 是 ， 它 只 是 表示 这 种 问题 的 一 种 具体 的 解决 方法 ， 而 在 实 
践 中 许多 其 他 的 方法 也 是 可 能 的 。 但 是 “实体 /联系 建 模 ” 这 个 概念 已 经 很 常见 并 且 应 用 
得 非常 广泛 。 

“实体 建 模 ” 这 个 概念 并 不 是 不 好 ， 但 是 它 看 起 来 比 “ 语 义 建 模 ” 更 具体 一 些 ， 因 此 可 能 
会 有 某 种 不 适当 的 暗示 意义 。 

对 于 “对 象 建 模 ” 这 个 说 法 的 问题 是 :“ 对 象 ” 在 这 里 是 “实体 ”的 一 个 同义词 ， 然 而 在 
其 他 上 下 文中 则 可 能 会 是 男 一 种 含义 (其 他 的 数据 库 上 下 文 环境 ， 这 方面 问题 可 以 参见 
第 25 章 ) 。 实 际 上 ， 看 来 这 个 现象 (有 两 个 不 同 的 含义 的 现象 ) 很 可 能 引起 在 本 书 其 他 
部 分 提 到 的 第 一 个 根本 性 错误 (the first Great Blunder) 。 请 参见 第 26 章 对 这 个 问题 的 详细 
讨论 。 





”不 用 说 ， 在 第 8 章 讨论 的 支持 关系 变 元 和 数据 库 谓词 的 系统 是 能 “多 理解 一 点 语义 的 " 。 也 就 是 说 ， 这 种 谓词 支持 
是 语义 建 模 正确 而 且 丛 当 的 基础 。 然 而 可 起 的 是 ， 绝 大 多 数 的 语义 建 模 方案 都 不 基于 任何 这 样 的 基础 ， 而 是 特别 
到 某 种 程度 (参考 文献 【14. 22 ~ 14. 24] 中 的 提议 是 一 个 例外 ) 。 然 而 ， 由 于 商业 界 对 商业 规则 [9.21， 9.22] 越 
来 越 多 的 重视 ， 这 种 不 好 的 情况 可 能 会 改变 。 第 9 章 中 的 谓词 在 这 种 意义 上 讲 只 是 基本 的 “商业 规则 ”。 
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下 面 回 到 本 章 的 主题 。 把 这 一 章 放 入 本 书 的 这 一 部 分 的 原因 如 下 : 语义 建 模 的 思想 在 数据 库 
设计 中 ， 即 使 在 缺少 直接 的 DBMS 支持 的 情况 下 ， 也 非常 有 用 。 因 此 ， 数 据 模 型 在 商业 上 得 到 
实现 之 前 ， 最 初 的 关系 模型 思想 是 作为 最 初 的 数据 库 设计 目标 的 应 用 而 产生 的 ， 内 此 即使 没有 商 
业 上 的 实现 而 是 仅 作 为 设计 的 补充 ， 这些 “扩展 的 ”数据 模型 思想 也 是 十 分 有 用 的 。 事 实 上 ， 
在 撰写 本 书 的 时 候 ， 语 义 建 模 的 思想 已 经 在 数据 库 设计 领域 产生 了 重要 影响 ， 这 样 说 可 能 并 不 为 
过 一 一 几 个 基于 某 些 语义 建 模 方法 的 设计 方法 已 经 被 提出 来 。 由 于 这 个 原因 ， 本 章 的 重点 具体 来 
说 是 语义 模型 思想 在 数据 库 设计 中 的 应 用 。 

本 章 的 安排 如 下 。 在 这 一 节 之 后 ，14.2 节 解 释 语义 模型 中 常见 的 术语 。14. 3 节 介绍 最 知名 
的 扩展 数据 模型 : Chen 的 实体 /联系 (EAR) 模型 ，14.4 节 和 14. 5 节 介 绍 这 个 数据 模型 在 数据 
设计 中 的 应 用 (其 他 的 模型 作为 对 “参考 文献 ”中 某 些 文献 的 注释 进行 了 简单 介绍 ) 。 最 后 ， 
14. 6 节 提 供 了 对 E/R 模型 的 某 些 方面 的 简单 分 析 ，14. 7 节 是 小 结 。 


14.2 总 体 方法 


下 面 根据 四 步 来 描述 语义 建 模 问题 的 总 体 方法 : 

1) 首先 ， 要 辨别 一 组 语义 概念 ， 这 些 概 念 在 非 正 式 地 讨论 现实 世界 时 看 起 来 很 有 用 。 
例如 : 

a 址 界 是 由 实体 (entity) 组 成 的 (虽然 不 能 详细 精确 地 刻画 什么 是 实体 ， 实 体 的 概念 至 少 

在 讨论 现实 世界 时 看 起 来 确实 是 有 用 的 ) 。 

a 进一步 讲 ， 实 体 可 以 划分 为 实体 类 型 (entity type) 。 例 如 ， 所 有 的 雇员 都 是 雇员 实体 类 型 
的 实例 (instance )。 这 种 分 类 的 好 处 是 所 有 给 定 类 型 的 实体 都 有 共同 的 特性 (proper- 
ty) 例如 ， 所 有 的 雇员 都 有 薪水 一 一 因此 这 样 可 以 明显 地 简化 表述 。 例 如 ， 在 关系 
中 ， 共 同 点 就 可 以 被 归 到 关系 变量 的 标题 (heading) 中 。 

s 更 深入 地 讲 ， 每 一 个 实体 都 有 一 个 用 来 识别 自身 的 具体 特性 一 一 即 每 一 个 实体 都 有 一 个 标 
识 (identity ) 。 

s 再 深入 一 步 ， 任 何 实体 都 可 以 通过 联系 (relationship) 来 与 其 他 的 实体 相关 。 

如 此 等 等 。 注 意 : 所 有 的 这 些 术语 〈( 例 如， 实体、 实体 类 型 、 特 性 、 联 系 等 ) 都 不 是 精确 和 非 
形式 化 定义 的 一 一 它们 是 “现实 世界 ”的 概念 ， 而 不 是 形式 化 的 概念 。 第 1 步 不 是 形式 化 的 步 
又 ， 然 而， 下 面 的 2 ~4 步 却 是 形式 化 的 。 

2) 设计 一 组 相应 的 符号 化 的 对 象 来 代表 前 面 的 语义 概念 (注意; 对象 这 个 术语 并 不 代表 任 
何 已 存在 的 含义 )。 例 如 ， 扩 展 的 关系 模型 RM/T (参见 [14.7]) 提供 了 一 些 特殊 的 关系 类 型 
称 为 E 关 系 和 PP 关 系 。 严 格 地 说 ，E 关系 代表 实体 而 P 关系 代表 特性 ; 如 上 面 所 讲 的， 实体 和 特 
性 并 不 是 形式 化 的 定义 ,然而 ,，E 关系 和 P 关系 却 理 所 当然 是 形式 化 的 定义 。 

3) 设计 一 组 正规 的 、 常 用 的 完整 性 规则 (或 者 “元 约束 ”( metaconstraint) ， 这 是 在 第 9 章 
用 到 的 术语 ) 来 搭配 这 些 正规 的 对 象 。 例 如 ，RM/T 中 包括 一 个 称 为 特性 完整 性 的 规则 ， 这 个 规 
则 要 求 进 入 P 关系 必须 有 进入 E 关 系 的 许可 。( 数 据 库 的 每 一 个 特性 都 必须 是 某 些 实体 的 特性 ， 
这 个 要 求 就 反映 了 这 个 完整 性 规则 。) 

4) 最 后 ， 设 计 一 组 用 来 操作 这 些 正规 对 象 的 正规 操作 符 。 例 如 ，RMZT 提供 了 一 种 属性 操 
作 符 ， 这 个 操作 符 可 以 用 来 将 EE 关系 及 其 所 有 相关 的 了 关系 连接 在 一 起 ， 而 不 必 知 道 有 多 少 个 
这 样 的 关系 和 这 些 关 系 的 名 字 是 什么 。 因 此 ， 可 以 将 任意 实体 的 所 有 特性 都 收集 在 一 起 。 

上 面 2 ~4 步 中 的 对 象 、 规 则 和 操作 符 一 起 组 成 了 一 个 扩展 的 数据 模型 一 一 “扩展 模型 ”， 
这 就 是 说 ， 这 些 构造 确实 是 一 个 基本 的 模型 如 关系 模型 的 超 集 ; 但 是 ， 这 里 上 下 文中 并 没有 对 什 
么 是 扩展 的 和 什么 是 基本 的 之 间 的 明显 区 别 的 解释 。 请 注意 ， 规 则 和 操作 符 与 对 象 一 样 ， 都 是 模 
型 的 一 部 分 (就 如 它们 在 关系 模型 中 一 样 )。 另 一 方面 ， 从 数据 库 设 计 方 面 看 ， 较 为 恰当 地 说 ， 
对 象 和 规则 比 操作 符 更 重要 2 ; 因此 ， 本 章 中 其 余部 分 的 重点 就 是 对 象 和 规则 而 不 是 操作 符 ， 偶 








驴 除了 需要 用 操作 符 公式 化 地 表示 规则 。 
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尔 可 能 会 就 操作 符 的 方面 来 进行 一 些 讨论 。 

回 到 步 又 1 : 这 一 步骤 尝试 区 分 一 组 语义 概念 ， 这 些 概念 在 谈论 现实 世界 时 是 有 用 的 。 有 几 
个 这 样 的 概念 一 一 实体 、 特 性 、 关 系 和 子 类 型 一 一 已 经 在 图 14-1 中 使 用 非 正式 的 定义 和 示例 显 
示 出 来 了 。 这 些 示例 是 有 意 选取 的 ， 它 们 显示 了 在 现实 世界 中 间 样 的 对 象 可 能 会 被 一 些 人 当 作 实 
体 ， 而 被 男 一 些 人 当 作 特性 ， 还 会 被 另 一 些 人 当 作 联系 顺便 说 一 下 ， 这 个 观点 说 明了 为 什么 
不 可 能 给 实体 的 术语 下 一 个 准确 的 定义 ) 。 支 持 灵 活 的 解释 是 语义 建 模 的 目标 ,一 个 不 可 能 被 完 
全 达到 的 目标 。 


概 念 非 正式 定义 举例 
ENTITY (实体 ) 可 相互 区 别 的 对 象 供应 商 ， 零 件 ， 发 货 

和 雇员， 部 门 

人 

乐曲 ， 协 奏 曲 

乐队 ， 指 挥 

购 货 订单 ， 订 货 明 细 
PROPERTY (特性 ) ”表示 实体 的 一 -项 信息 供应 商号 码 

发 货 数量 

雇员 所 在 部 门 

人 的 身高 

协奏曲 类 型 

订购 日 期 
RELATIONSHIP 充当 两 个 或 多 个 实体 间 联 系 的 实体 发 货 (供应 商 -零件 ) 
(联系 ) 分 配 (雇员 - 部 门 ) 

录 彰 (乐曲 ~ 乐队 - 指挥 ) 
SUBTYPE ( 子 类 ) 如果 每 一 个 了 必 是 一 个 XX， 则 实体 类 型 了 是 ”雇员 是 人 的 子 类 

实体 类 型 匀 的 子 类 协奏曲 是 乐曲 的 子 类 | 


图 14-1 一 些 有 用 的 语义 概念 


顺便 提 一 下 ， 注 意 在 下 列 术 语 之 间 很 可 能 会 出 现 冲 突 : (a) 语义 层 用 到 的 术语 ， 例 如 在 图 
14-1 中 所 列 出 的 术语 ; (b) 在 某 些 潜在 形式 (如 关系 模型 ) 中 用 到 的 术语 。 例 如 ， 许 多 语义 建 
模 方案 中 用 属性 一 词 来 替代 特性 ， 但 并 不 是 说 这 个 属性 与 关系 层 的 属性 是 同样 的 概念 ， 也 不 是 意 
昧 着 它 是 关系 层 属性 的 映射 。 举 另 一 个 例子 来 说 ， 用 在 E/R 模型 中 的 实体 类 型 概念 并 不 与 在 第 5 
章 中 讲 的 类 型 概念 相同 。 (很 重要 !) 更 具体 地 说 ， 这 样 的 实体 类 型 在 关系 设计 中 很 可 能 映射 到 
关系 变量 中 ， 所 以 它们 当然 并 不 与 相关 的 属性 类 型 ( 域 ) 相 一 致 。 但 是 它们 也 并 不 与 关系 类 型 
一 致 ， 因 为 : 

1) 一 些 基本 关系 类 型 有 可 能 在 语义 层 与 联系 类 型 而 不 是 实体 类 型 相符 合 。 

2) (大 致 上 说 ) 来 自 关系 的 类 型 可 能 并 不 与 任何 语义 层 的 任何 类 型 一 致 。 
层次 之 间 的 混乱 一 一 特别 是 在 名 词 冲突 中 出 现 的 混乱 一 一 在 过 去 已 经 导致 了 巨大 的 错误 ， 并 且 到 
现在 还 在 出 现 着 错误 (参见 第 26 章 26.2 节 )。 

总 结 : 在 第 1 章 中 指出 ， 联 系 最 好 被 当 作 实体 看 待 ， 在 本 书 中 一 般 情况 下 我 们 都 这 样 使 用 。 
在 第 3 章 中 指出 ， 关 系 模型 的 一 个 优点 就 是 用 同样 的 方法 一 一 即 通过 关系 变量 来 代表 所 有 的 实 
体 ， 包 括 联系 。 不 过 ， 关 系 的 概念 在 讨论 现实 世界 时 确实 在 直观 上 看 起 来 是 有 用 的 ; 而 且 ， 在 
14.3 ~ 14. 5 节 中 所 讨论 的 数据 库 设 计 的 方法 确实 对 实体 和 联系 之 间 的 区 别 依赖 很 大 。 因 此 ， 引 
人 联系 这 个 术语 是 为 了 下 面 几 节 的 讨论 。 然 而 ， 在 第 14. 6 节 中 还 会 讨论 这 个 问题 。 


14. 3 E/R 模型 


在 14.1 节 中 简要 地 介绍 了 最 有 名 的 语义 建 模 方法 之 一 一 一 当然 也 是 应 用 最 广泛 的 一 种 一 一 称 
为 实体 /联系 〈(E/R) 方法 ， 它 基于 Chen 在 1976 年 提出 的 “实体 /联系 模型 ”( 参 见 [14.6j)， 并 
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且 在 此 之 后 Chen 和 许多 其 他 的 人 对 此 方法 在 很 多 方面 加 以 修改 (参见 [14.18] 和 [14.45 ~ 
14. 47] ) 。 本 章 的 大 部 分 内 容 都 是 针对 E/R 方法 的 讨论 (然而 ， 应 该 强调 E/R 模型 远 远 不 是 唯 
一 的 “扩展 ”模型 ， 还 有 许多 其 他 的 扩展 模型 。 见 参考 文献 [14.6] 、 [14.18] 、 [14.30] 、 
[14.37] 特别 是 [14. 24] 中 具体 介绍 了 几 种 其 他 模型 ， 在 [14.27] 、[14. 36] 中 给 出 了 有 关 这 
个 领域 的 综述 ) 。 

E/R 模型 包括 在 图 14-1 中 列 出 的 所 有 类 似 的 语义 对 象 。 下 面 将 依次 进行 介绍 。 然 而 ， 首 先 
应 该 说 明 ， 在 参考 文献 [14.6] 中 并 不 是 只 介绍 了 E/R 模型 本 身 ， 还 介绍 了 相应 的 图 表 技术 
(“E/R 图 " ) 。 在 下 一 节 将 详细 讨论 E/R 图， 在 这 里 只 给 出 一 个 基于 参考 文献 [14.6] 的 图 表 的 
例子 ， 如 图 14-2 所 示 。 你 将 发 现 它 对 研究 本 章 所 讨论 的 例子 很 有 帮助 。 这 个 例子 提供 了 简单 的 
制造 企业 的 数据 〈 这 是 对 第 1 章 图 1-6 中 讨论 的 “KnowWare 公司 ”的 E/R 图 的 一 个 扩充 版 本 ) 。 
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图 14-2 实体 /联系 图 (部 分 示例 ) 


注意 ; 在 下 面 的 小 节 中 所 讨论 的 大 部 分 内 容 对 每 一 个 了 解 关系 模型 的 人 来 说 都 相当 熟悉 。 然 
而 ,在 术语 上 有 某 些 不 同 ， 下 面 将 会 看 到 。 
1. 实体 
参考 文献 [14. 6] 用 “能 够 被 清楚 辨识 的 事物 ”来 定义 实体 。 并 将 实体 划分 为 常规 实体 和 
弱 实 体 。 一 个 弱 实体 是 存在 - 依赖 (existence-dependent) 于 一 些 其 他 实体 的 实体 。 就 是 说 ， 如 
果 其 他 实体 不 存在 ， 则 该 实体 也 不 存在 。 例 如 ， 根 据 图 14-2， 一 个 雇员 的 依赖 者 〈dependent ) 
就 是 弱 实体 一 一 当 相 关 的 雇员 不 存在 时 ， 它 们 也 不 能 存在 (只 考虑 数据 库 ) 。 特 别 是 如 果 一 个 给 
定 的 雇员 被 删 掉 了 ， 则 雇员 的 所 有 依赖 者 都 将 被 删除 。 与 之 相反 ， 一 个 常规 实体 是 非 弱 实体 ; 例 
如 ， 一 个 雇员 就 是 一 个 常规 实体 。 注 意 ， 有 些 作 者 用 “ 强 实体 ”而 不 是 用 “常规 实体 ”来 表示 。 
2. 特性 
实体 和 联系 都 具有 特性 。 一 个 给 定 类 型 的 所 有 的 实体 或 联系 都 有 某 种 共同 的 特性 : 例如 ， 所 
有 雇员 有 一 个 雇员 编号 、 雇 员 姓 名 、 工 资 等 特性 (注意 : 在 此 有 意 不 将 “部 门 号 ”作为 雇员 的 
特性 提出 。 参 见 下 一 小 节 对 联系 的 讨论 ) 。 每 一 个 特性 值 都 是 从 一 个 相应 的 特性 集合 中 取出 的 
( 即 在 关系 术语 中 的 域 ) 。 而 且 ， 特 性 还 可 以 是 : 
s 简单 的 或 复合 的 ; 例如 ,复合 特性 “雇员 姓名 ”可 能 由 简单 的 特性 “first name” 、“ mid- 
dle name” 和 “last name” 组 成 。 
a 码 ( 即 在 某 些 上 下 文中 是 唯一 的 ) : 例如 ， 一 个 依赖 者 的 名 字 对 于 一 个 给 定 的 雇员 来 说 可 
能 是 唯一 的 。 
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sm 单 值 的 或 多 值 的 ( 换 句 话说 ， 人 允许 重复 的 组 ”):; 所 有 在 图 14-2 中 显示 的 特性 都 是 单 值 
的 ， 但 是 如 果 出 现 这 种 情况 : 例如 ， 一 个 供应 商 有 几 个 不 同 的 住地 ， 那 么 “供应 商 所 在 
城市 ”将 会 是 一 个 多 值 特性 。 | 

@ 空缺 的 〈( 即 “不 知道 的 ”或 “不 能 适用 的 ”) : 这 种 概念 并 没有 在 图 14-2 中 出 现 ， 参 见 第 

19 章 的 详细 讨论 。 
s 基本 的 或 导出 的 : 例如 ， 对 一 个 给 定 零件 的 “总 数量 ”是 由 该 零件 的 每 一 笔 发 货 量 的 总 
和 导出 的 。 图 14-2 中 对 此 概念 也 没有 示例 。 

注意 : 一 些 作 者 在 E/R 模型 中 用 “attribute” 而 不 是 “property”。 

3. 联系 

参考 文献 [14.6] 定义 : 联系 是 “实体 之 间 的 一 个 关联 ” 。 例 如 ， 在 部 门 和 雇员 之 间 有 一 个 
联系 称 为 DEPT_EMP ， 这 个 联系 代表 特定 的 部 门 雇佣 特定 的 和 雇员。 与 实体 相同 (参见 第 1 章 )， 
在 原则 上 区 别 联 系 类 型 和 联系 实例 是 很 必要 的 ， 但 是 通常 在 非 正 式 的 讨论 中 忽略 了 这 样 的 过 程 ， 
在 下 面 的 讨论 中 就 是 这 样 。 

在 一 个 给 定 联系 中 的 实体 称 为 这 个 联系 中 的 参与 者 〈participant) ， 在 一 个 联系 中 的 参与 者 的 
数量 称 为 联系 的 度 (degree) 。( 在 此 要 注意 : 这 个 术语 与 在 关系 模型 中 的 含义 有 所 不 同 。) 

R 是 一 个 联系 类 型 ，E 是 其 中 的 参与 者 。 如 果 每 一 个 参与 者 E 的 实例 都 至 少 在 R 的 一 个 实例 
中 出 现 。 那 么 R 中 的 参与 者 E 称 为 全 部 的 (total) ， 否 则 它 被 称 为 部 分 的 《partial) 。 例 如 ， 如 果 
每 一 个 雇员 都 必须 属于 一 个 部 门 ， 那 么 在 关系 DEPT_EMP 中 的 参与 者 雇员 是 一 个 全 部 的 ; 如 果 
对 于 一 个 给 定 的 部 门 可 以 根本 就 没有 雇员 ， 那 么 在 联系 DEPT_EMP 中 部 门 的 参与 者 就 是 部 分 的 。 

一 个 E/R 联系 可 以 是 一 对 一 、 一 对 多 (也 可 以 称 为 多 对 一 ) 或 多 对 多 (为 了 简单 ， 假 定 所 
有 的 联系 都 是 二 元 的 ， 即 度数 为 2; 将 这 个 概念 或 术语 扩展 到 更 高 度数 的 联系 当然 是 很 容易 的 ) 。 
现在 ， 如 果 对 关系 模型 非常 熟悉 的 话 ， 可 以 认为 多 对 多 的 情况 才 是 唯一 真正 的 联系 ， 因 为 这 种 情 
况 是 唯一 要 求 用 独立 的 关系 变量 来 表示 一 一 一 对 一 和 一 对 多 联系 通常 可 以 被 一 个 参与 者 关系 变量 
中 的 一 个 外 码 来 表示 。 然 而 ， 如 果 一 对 一 和 一 对 多 的 情况 随 着 时 间 的 推移 可 以 产生 或 变 成 多 对 多 
的 情况 ， 那 么 就 可 以 将 一 对 一 和 一 对 多 的 情况 当 作 多 对 多 的 情况 来 看 待 。 仅 当 没 有 这 样 的 可 能 性 
时 才能 安全 地 将 它们 分 别 对 待 。 当 然 ， 有 时 是 不 存在 这 种 可 能 的 ; 例如 ， 一 个 圆 只 有 一 个 圆心 总 
是 正确 的 。 

4. 实体 子 类 型 和 超 类 型 

注意 : 在 这 一 小 节 中 讨论 的 内 容 并 不 包含 在 最 初 的 EAR 模型 中 ( 见 参 考 文献 【14.6])， 但 
是 出 现 于 后 来 的 模型 中 。 举 例 来 说 ， 见 参考 文献 【14.46] 。 

任何 给 定 的 实体 至 少 属于 一 个 实体 类 型 ， 但 一 个 实体 可 以 同时 有 几 个 类 型 。 例 如 ， 如 果 一 些 
雇员 是 程序 员 (所 有 的 程序 员 都 是 雇员 ) ， 实 体 类 型 PROGRAMMER (程序 员 ) 是 实体 类 型 EM- 
PLOYEE (雇员 ) 的 子 类 型 (或 者 说 ， 实 体 类 型 EMPLOYEE 是 PROGRAMMER 的 一 个 超 类 型 ) 。 
所 有 的 雇员 特性 都 自动 适用 于 程序 员 ， 但 反之 则 不 然 。( 例如 ， 程 序 员 可 能 具有 “程序 语言 的 技 
能 ”的 特性 ， 但 一 般 来 讲 雇员 没有 此 特性 。) 同样 ， 程 序 员 自动 具有 和 雇员 所 具有 的 所 有 特性 ， 而 
反之 则 不 对 。( 例如 ， 程 序 员 可 能 属于 一 些 专业 的 计算 机 团体 ， 而 一 般 的 雇员 则 并 不 如 此 。) 适 
用 于 父 类 的 特性 和 联系 可 以 为 子 类 所 继承 。 

还 要 注意 一 些 程序 员 可 能 是 应 用 程序 员 而 另 一 些 可 能 是 系统 程序 员 ; 因此 称 实体 类 型 AP- 
PLICATION_PROGRAMMER 和 SYSTEM_PROGRAMMER 都 是 PROGRAMMER 超 类 型 的 子 类 
(如 此 等 等 ) 。 换 句 话 说， 一 个 实体 子 类 还 是 一 个 实体 类 型 ， 因 此 可 以 有 它 自己 的 子 类 。 一 个 给 
定 的 实体 类 型 和 它 的 子 类 、 子 类 的 子 类 ， 等 等 …… 一 起 组 成 了 一 个 实体 类 型 层次 (参见 
图 14-3)。 

以 下 几 点 需要 指出 : 

1) 在 第 20 章 会 深入 地 讨论 类 型 层次 和 类 型 继承 ， 然 而 值得 注意 的 是 : 在 第 20 章 使 用 的 类 








”如 果 你 不 熟悉 这 一 术语 ， 请 参考 6. 4 节 的 子 节 “关系 取 值 的 属性 ”。 
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型 这 个 术语 与 第 5 章 中 的 类 型 的 含义 相同 ， 而 与 本 章 中 讨论 的 “实体 类 型 ”的 意义 不 同 。 

2) 如 果 读 者 对 IMS (或 某 些 其 他 支持 层次 数据 结构 的 数据 库 系 统 ) 熟悉 ， 可 以 发 现 类 型 层 
次 与 IMS 形式 的 类 型 层次 并 不 相同 。 例 如 ， 在 图 14-3 中 并 没有 表明 一 个 EMPLOYEE 有 许多 
PROGRAMMER 与 之 对 应 (而 如 果 图 中 所 示 的 是 IMS 的 层次 结构 ， 则 会 有 这 样 的 对 应 关系 ) ; 相 
反 ， 对 于 一 个 EMPLOYEE 的 实例 至 多 只 有 一 个 相应 的 PROGRAMMER 与 之 对 应 ， 这 表明 一 个 雇 
员 只 能 处 于 一 个 程序 员 的 角色 。 

这 就 是 对 E/R 模型 的 主要 结构 特征 的 简要 描述 。 现 在 将 注意 力 转 到 E/R 图 上 来 。 






EMPLOYEE 





APPLICATION _ SYSTEM_ 
PROGRAMMER PROGRAMMER 人 


图 14-3 ”实体 类 型 层次 示例 


14.4 E/R 图 


在 前 面 的 一 节 中 已 经 指出 ， 参 考 文献 [14.6] 不 只 介绍 了 E/R 模型 本 身 ， 还 介绍 了 实体 / 联 
系 图 的 概念 (E/R 图 ) 。E/R 图 形成 了 一 种 以 图 形 方式 表示 数据 库 的 逻辑 结构 的 技术 。 因 此 , 它 
们 提供 了 一 种 简单 易 懂 、 并 可 以 与 任意 给 定 的 数据 库 的 设计 相交 流 的 方式 (“一 图 胜 千言 ")。 的 
确 ，E/R 模型 作为 一 种 数据 库 设 计 方 法 的 普及 性 更 多 地 归功 于 E/R 图 的 存在 而 不 是 其 他 的 原因 。 
下 面 通过 在 图 14-2 和 图 14-3 中 已 给 的 例子 来 描述 创建 一 个 E/R 图 的 规则 。 

注意 ; 和 E/R 模型 一 样 ，E/R 图 设计 技术 也 是 随 着 时 间 的 发 展 而 发 展 的 。 在 这 里 所 描述 的 
版 本 在 某 些 特定 的 方面 与 最 初 在 参考 文献 [14.6] 中 描述 的 有 所 不 同 。 

1. 实体 

每 一 个 实体 类 型 都 以 矩形 表示 ， 在 矩形 中 包含 所 表示 的 实体 类 型 。 对 于 一 个 弱 实 体 类 型 ,和 矩 
形 框 是 双 线 的 。 

示例 (参见 图 14-2): 

s 常规 实体 : 

DEPARTMENT 
EMPLOYEE 
SUPPLIER 
PART 
PROJECT 

a 弱 实 体 ， 

DEPENDENT 

2. 特性 

特性 用 椭 贺 显示， 椭圆 内 包含 特性 的 名 字 ， 并 且 通 过 实 线 与 相关 的 实体 相连 。 如 果 特 性 是 导 
出 的 ， 则 椭圆 的 边 用 点 线 或 虚线 表示 ， 如 果 特 性 是 多 值 的 ， 则 椭圆 边 用 双 线 表示 。 如 果 特 性 是 复 
合 的 ， 它 的 成 员 特 性 一 样 用 椭圆 来 表示 ， 通 过 实 线 连 接 到 表示 复合 特性 的 椭圆 上 。 码 特性 用 下 划 
线 标明 。 特 性 对 应 的 值 集合 不 予 显示 。 

示例 (参见 图 14-2): 
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aa 对 于 EMPLOYEE.: 
EMP# (和 码 ) 
ENAME (复合 的 ， 包 含 FIRST、MI 和 LAST) 
SALARY 
下 对 于 SUPPLIER 
S# ( 码 ) 
SNAME 
STATUS 
CITY 
em 对 于 SUPP_PART_PROJ: 
QTY 
a 对 于 PART_STRUCTURE.: 
QTY 
为 了 节省 空间 ， 所 有 其 他 的 特性 都 在 图 14-2 中 省 略 了。 
3. 联系 
每 一 个 联系 类 型 都 用 菱形 框 显示 ， 其 中 包含 所 表示 的 联系 类 型 名 。 如 果 表 示 一 个 弱 实体 和 它 
所 依赖 的 实体 之 间 的 联系 ， 则 用 双 线 菱形 框 。 每 一 个 联系 的 参与 者 都 通过 实 线 与 其 相关 的 联系 连 
接 ; 每 一 个 这 样 的 线 都 标注 “1” 或 “M” 来 表示 这 个 联系 是 一 对 一 、 多 对 一 ， 等 等 。 如 果 参 与 
者 是 全 部 的 ， 则 用 双 线 连 线 表示 。 
示例 (参见 图 14-2) : 
。 DEPT_EMP (在 DEPARTMENT 和 EMPLOYEE 之 间 的 一 对 多 联系 ) 
eEMP_DEP (在 EMPLOYEE 和 一 个 弱 实 体 DEPENDENT 之 间 的 一 对 多 联系 ) 
。 PROJ_WORK 和 PROJ_MANAGER (在 EMPLOYEE 和 PROJECT 之 间 的 相互 独立 的 多 对 多 
各 一 对 多 联系 ) 
。 SUPP_PART._PROJ (包括 SUPPLIER、PART 和 PROJECT 的 多 对 多 对 多 联系 ) 
e SUPP_PART (在 SUPPLIER 和 PART 之 间 的 多 对 多 联系 ) 
。 PART_STRUCTURE (在 零件 和 零件 之 间 的 多 对 多 的 联系 ) 
观察 到 在 最 后 一 个 例子 中 两 条 从 PART 到 PART_STRUCTURE 的 两 条 线 通 过 标注 着 两 个 不 同 
的 角色 名 的 标签 区 别 开 来 (分 别 为 EXP 和 IMP， 即 “零件 爆炸 ” (explosion) 和 “零件 闭塞 ” 
(implosion) ) 。PART_STRUCTURE 是 一 个 称 为 递归 联系 (recursive relationship) 的 示例 。 
4. 实体 子 类 型 和 超 类 型 
实体 类 型 了 是 实体 类 型 X 的 一 个 子 类 型 。 可 以 画 一 条 从 XX 的 和 矩形 框 到 了 的 矩形 框 的 第 头 线 ， 
这 条 线 代 表 着 一 种 称 为 “isa 联系 ”的 连接 (因为 每 一 个 了 都 “是 一 个 ”(is a ) X 一 一 即 所 有 Y 
的 集合 是 所 有 六 集合 的 子 集 ) 。 
示例 (参见 图 14-3): 
PROGRAMMER 是 EMPLOYEE 的 一 个 子 类 
@ APPLICATION_PROGRAMMER 和 SYSTEM_PROGRAMMER 都 是 PROGRAMMER 的 一 个 
子 类 。 


14.5 基于 E/R 模型 的 数据 库 设计 


在 某 种 意义 上 讲 ， 通 过 在 前 一 节 描 述 的 规则 构建 E/R 图 就 是 一 个 数据 库 的 设计 。 然 而 ， 如 
果 试 图 将 这 样 的 一 个 设计 映射 到 一 个 具体 形式 的 DBMS 上 ,2 就 会 发 现 E/R 图 还 是 在 某 些 方面 不 
精确 ， 并 且 它 在 一 些 细节 方面 并 未 加 以 考虑 (特别 是 完整 性 约束 的 细节 方面 )。 为 了 阐述 这 一 
点 ， 可 以 考虑 一 下 在 将 图 14-2 的 设计 映射 到 关系 数据 库 定义 上 时 都 包括 了 什么 内 容 。 





〇 ”很 多 工具 可 以 在 这 一 映射 过 程 中 应 用 。( 例如， 通过 使 用 E/R 图 生成 SQL CREATE TABLE 语句 及 类 似 的 语句 .) 
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1. 常规 实体 
重复 一 下 ， 在 图 14-2 中 描述 的 常规 实体 如 下 : 


DEPARTMENT 
EMPLOYEE 
SUPPLIER 


PROJECT 


每 一 个 常规 实体 都 映射 到 一 个 基本 关系 变量 上 。 因 此 数据 库 包 括 五 个 基本 关系 变量 : DEPT、 
EMP、S、P 和 J， 分 别 与 这 五 个 实体 类 型 相对 应 。 而 且 ， 这 五 个 基本 关系 变量 中 的 每 一 个 都 有 一 
个 候选 码 (通过 属性 DEPT#、EMP#、S#、P# 和 天 表示 ) 它们 都 与 EAR 图 中 确定 的 “ 码 ” 相 对 
应 。 为 了 定义 方便 ， 给 每 一 个 关系 变量 指定 一 个 主 码 。 那 么 关系 变量 DEPT 的 定义 〈 例 如 ) 以 
如 下 方式 开始 : 


VAR DEPT BASE RELATION 
{ DEPT# ..., ... } 
PRIMARY KEY { DEPT# } ;} 


另外 的 四 个 关系 变量 的 定义 作为 练习 留 给 读者 。 注 意 : 域 或 “ 值 的 集合 ”当然 也 应 该 被 限 
制 。 既 然 在 前 面 已 经 提 到 属性 值 并 不 包含 在 E/R 图 中 ， 所 以 省 略 了 对 这 一 方面 的 细节 的 讨论 。 

2. 多 对 多 联系 

在 示例 中 多 对 多 (或 多 对 多 对 多 等 ) 联系 如 下 、 


PROJ_WORK ( 外 丘 供 咏 和 珊 县 
SUPP PART (包括 供 


SUPP PART_ PROJ 记 辣 和 这 入 ) 零件 和 项 目 ) 

PART STRUCTURE (外相 茹 说 他 守信 

每 一 个 相应 的 联系 也 映射 到 一 个 基本 关系 变量 上 。 因 此 再 介绍 四 种 基于 这 四 个 联系 的 基本 关系 
变量 。 下 面 看 一 下 SUPP_PART 联系 。 假 定 这 个 联系 的 关系 变量 是 SP (最 常用 的 发 货 量 关系 变量 )。 
为 了 辨别 这 个 联系 中 的 参与 者 ， 先 将 注意 力 从 这 个 关系 变量 的 主 码 问题 转移 到 外 码 问题 上 : 


VAR SP BASE RELATION SP 
{ S# ... ， P# ...,，...} 


FOREIGN KEY { S# } REFERENCES S 
FOREIGN KEY { P# } REFERENCES P :; 


很 清楚 ， 与 两 个 参与 者 (供应 商 和 零件 ) 相对 应 ， 关 系 变量 中 必须 包括 两 个 外 码 |S# 和 P#} ， 
并 且 这 些 外 码 必 须 参 照 参 与 者 关系 变量 S 和 了 P。 此 外 ， 一 组 适当 的 外 码 规则 组 合 〈 即 一 一 个 DELETE 
规则 和 一 个 UPDATE 规则 ) 必须 是 这 些 具 体 的 外 码 中 的 某 一 个 。 注 意 : 指定 的 规则 只 是 通过 图 示 
来 展示 (图 示 并 非 唯 一 的 展示 形式 ) 。 要 特别 注意 ， 规 则 是 不 能 由 E/R 模型 导出 或 指定 的 。 
VAR SP BASE RELATION SP 
{ 5S# .PP 
FOREIGN KEY { S# } REFERENCES S 
N DELETE RESTRICT 
ON UPDATE CASCADE 
FOREIGN KEY { P# } REFERENCES P 


N DELETE RESTRICT 
ON UPDATE CASCADE ; 


对 于 这 个 关系 变量 中 的 主 码 又 如 何 处 理 呢 ? 一 个 可 能 方法 是 采取 参与 者 -标识 (identifying) 
外 码 的 组 合 (S# 和 P#， 在 SP 的 例子 中 ) 。 如 果 (a) 对 于 每 一 个 联系 的 实例 ， 这 个 组 合 都 有 一 
个 唯一 值 (有 可 能 出 现 这 种 情况 ， 也 有 可 能 不 出 现 ， 通 常情 况 下 是 有 的 ) ; (b) 设计 者 对 复合 主 
码 无 异议 。 另 一 种 方法 是 ， 将 一 个 新 的 非 复合 的 替代 属性 ， 如 “发 货 的 数量 ” ， 作 为 主 码 来 使 用 
( 见 参考 文献 [14. 11] 和 [14. 21] ) 。 由 于 这 个 例子 的 原因 ， 选 择 第 一 种 方法 ， 给 基本 关系 变量 
SP 的 定义 加 上 - :条 语句 : 


ose. 
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PRIMARY KEY { S#, P# } 


对 于 PROJ WORK、PART_STRUCTURE 和 SUPP_PART_PROJ 的 联系 的 讨论 作为 练习 留 给 读者 。 
3. 多 对 一 联系 

在 这 个 示例 中 有 三 个 多 对 一 联系 : 

PROJ MANAGER (从 项 目 到 经 理 ) 


DEPT BMP ( 从 雇员 到 部 门 ) 
EMP_DEP ( 从 依赖 者 到 雇员 ) 


在 这 三 个 联系 中 ， 最 后 一 个 包含 了 一 个 弱 实 体 类 型 (PEPENDENT) ， 而 另 两 个 中 只 包含 了 
常规 实体 类 型 。 现 在 来 看 一 下 前 两 种 情况 。 考 虑 DEPT_EMP 的 例子 。 这 个 例子 并 不 引起 任何 新 
的 关系 变量 的 引入”。 而 事实 上 只 在 联系 的 “多 ” 边 上 (EMP) 的 关系 变量 中 引入 一 个 外 码 ， 
来 参照 “一 ” 边 (DEPT) 的 关系 变量 。 因 此 有 : 


VAR EMP BASE RELATION 
{ EMP# ..., DEPT# ..., ... } 
PRIMARY KEY { EMP# } 
FOREIGN KEY ( DEPT# ) REFERENCES DEPT 
TE ... 


ON UPDATE ... ; 


DELETE 和 UPDATE 规则 可 能 性 与 外 码 在 多 对 多 联系 中 代表 参与 者 的 可 能 性 相同 (一 般 是 
这 样 )。 同 样 ， 在 E/R 图 中 不 做 说 明 。 

注意 : 对 于 目前 的 表示 ， 假 定 一 对 一 联系 (实际 中 ， 在 任何 情况 下 都 不 常见 ) 与 多 对 一 联 
系 的 处 理 方式 相同 。 参 考 文献 [14.8] 中 包括 了 对 一 对 一 情况 的 特殊 问题 的 深入 讨论 。 

4. 弱 实 体 

一 个 弱 实 体 类 型 与 它 所 依赖 的 实体 类 型 的 联系 理所当然 地 是 一 个 多 对 一 联系 ， 在 前 面 的 小 节 
中 已 经 介绍 了 。 然 而 ， 这 个 联系 的 DELETE 规则 和 UPDATE 规则 必须 描述 如 下 : 


ON DELETE CASCADE 
ON UPDATE CASCADE 


这 些 说 明 合 起 来 共同 获取 并 反映 了 必要 的 存在 依赖 (existence dependence)。 下 面 是 -个 示例 : 


VAR DEPENDENT BASE RELATION 
{ EMP# ..., } 


sos. 


FOREIGN KEY ( EMP# ) REFERENCES EMP 
ON DELETE CASCADE 
ON UPDATE CASCADE ; 


对 于 这 样 的 一 个 关系 变量 来 说 什么 是 主 码 呢 ? 就 多 对 多 的 情况 来 说 ， 事 实证 明 可 以 有 几 种 选 
择 。 一 种 是 ， 如 果 数 据 库 设计 者 同意 复合 的 主 码 ， 则 可 以 采用 外 码 和 E/R 图 中 的 弱 实 体 “ 码 ” 
的 组 合 。 另 一 种 选择 是 ， 可 以 引入 新 的 〈 非 复合 ) 替代 属性 作为 主 码 ( 见 参考 文献 【14.11] 和 
f14.21j ) 。 还 是 由 于 这 个 例子 的 缘故 ， 选 择 第 一 种 方案 ， 根 据 基本 关系 变量 DEPENDENT 的 定 
义 增加 下 面 的 语句 : 


PRIMARY KEY { EMP#, DEP NAME } 


(其 中 ，DEP_NAME 是 雇员 的 依赖 者 的 名 字 ) 

5. 特性 . 

在 E/R 图 中 显示 的 每 一 个 特性 都 要 映射 成 为 一 个 适当 的 关系 变量 的 属性 一 除非 特性 是 多 
值 的 ， 那 将 为 它 创 建 一 个 新 的 关系 变量 〈 如 第 12 章 12.6 节 讨论 的 那样 ) 。 很 明显 ， 值 的 集合 可 
映射 为 很 多 类 型 (事实 上 ， 值 的 集合 本 身 就 带 有 类 型 ) 。 这 种 映射 是 非常 简单 的 ， 这 里 就 不 进行 





@ 尽管 有 可 能 像 14.3 节 提 到 的 ， 有 时 有 充分 的 理由 把 一 个 多 对 一 关系 作为 多 对 多 关系 处 理 。 参 考 文献 [19. 19 
的 第 四 部 分 深入 地 讨论 了 这 个 问题 。 
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进一步 的 讨论 了 。 注 意 : 开始 时 确定 我 们 到 底 需 要 哪些 值 是 非常 困难 的 。 
6. 实体 子 类 型 和 超 类 型 
由 于 图 14-2 并 没有 包括 任何 子 类 型 和 超 类 型 ， 所 以 参见 图 14-3， 其 中 包含 了 这 两 种 类 型 ， 
下 面 看 一 下 实体 类 型 EMPLOYEE 和 PROGRAMMER 。 为 了 简单 起 见 ， 假 定 程序 员 只 有 一 种 诸 言 
技能 ( 即 特 性 LANG 是 单 值 的 ) 。 那 么 ~ 
ea 与 往常 的 方法 一 样 〈 即 已 经 讨论 的 方法 ) ， 超 类 型 EMPLOYEE 映射 到 一 个 基本 关系 变量 
EMP 中 。 
s 子 类 PROGRAMMER 映射 到 另 一 个 基本 关系 变量 PGMR 中 ， 主 码 与 超 类 型 关系 变量 相同 ， 
其 他 的 属性 与 仅 是 程序 员 的 雇员 的 相应 属性 相同 〈 即 在 例子 中 只 是 LANG ) : 


VAR PGMR BASE RELATION 


{ EMP# . 
PRIMARY KEY { pi } so? 


此 外 ，PGMR 的 主 码 也 是 参照 关系 变量 EMP 的 外 码 。 因 此 应 将 定义 扩展 为 ( 注意， 特别 是 扩展 
DELETE 和 UPDATE 规则 ) : 


VAR PGMR BASE RELATION 
{ EMP# ..., LANG ... } 
PRIMARY KEY { EMP# } 
FOREIGN KEY { EMP# } REFERENCES EMP 
ON DELETE CASCADE 
ON UPDATE CASCADE ; 


m 还 需要 一 个 视图 EMP_PGMR ， 它 是 超 类 型 关系 变量 和 子 类 型 关系 变量 的 连接 : 


VAR EMP_PGMR VIEW 
EMP JOIN PGMR ; 


注意 这 个 连接 是 〈 零 或 一 ) 对 一 的 连接 。 它 是 通过 一 个 候选 码 和 一 个 与 之 相 匹 配 的 外 码 
”连接 的 ， 并 且 这 个 外 码 本 身 是 一 个 候选 码 。 因 此 ， 大 致 来 说 ， 这 个 视图 包括 只 是 程序 员 的 
这 些 雇员 的 信息 。 

下 面 给 出 设计 如 下 : 
可 以 通过 基本 关系 变量 EMP 了 解 所 有 的 雇员 的 特性 〈 例 如 ， 为 了 恢复 的 方便 ) 。 
可 以 通过 基本 关系 变量 PGMR 了 解 只 属于 程序 员 的 特性 。 
可 以 通过 视图 EMP_PGMR 了 解 所 有 属于 程序 员 的 特性 。 
可 以 通过 基本 关系 变量 插入 不 是 程序 员 的 雇员 。 
可 以 通过 视图 EMP_PGMR 插入 所 有 属于 程序 员 的 雇员 。 
可 以 通过 基本 关系 变量 EMP 或 视图 EMP_PGMR 删除 雇员 、 程 序 员 或 其 他 。 
可 以 通过 基本 关系 变量 EMP 或 视图 EMP_PGMR 更 新 所 有 雇员 的 特性 。 
可 以 通过 基本 关系 变量 PGMR 更 新 所 有 程序 员 的 特性 。 
可 以 通过 在 基本 关系 变量 PGMR 或 视图 EMP_PGMR 中 插入 雇员 来 使 一 个 非 程序 员 变 为 程 
序 员 。 
可 以 通过 在 基本 关系 变量 中 删除 程序 员 的 方法 来 使 一 个 雇员 从 程序 员 变 为 非 程 序 员 。 
对 图 14-3 中 的 其 他 实体 类 型 的 讨论 作为 练习 留 给 读者 (APPLICATION_PROGRAMMER 和 
SYSTEM_PROGRAMMER ) 。 


14.6 简单 分 析 
在 这 一 节 较 深入 地 分 析 一 下 E/R 模型 的 某 些 方面 。 下 面 的 讨论 是 从 参考 文献 [14.9] 中 对 





台 “注意 ,下 面 我 们 要 做 的 不 是 将 EMPLOYEE 和 PROGRAMMER 映射 为 某 种 “起 表 ” (supertable) 和 “ 子 表 ” 
(subtable) 结构 。 这 里 存在 一 个 概念 上 的 难点 ， 或 者 说 是 陷阱 : 只 因为 在 E/R 图 中 实体 类 型 了 是 实体 类 型 X 的 
子 类 型 ， 并 不 表明 了 的 关系 对 象 就 要 是 X 的 关系 对 象 的 什么 “ 子 ” 类 一 并且 事实 上 也 并 不 是 .更 深入 的 讨论 
见 参考 文献 [14. 13]。 
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这 个 问题 的 详细 分 析 部 分 中 抽取 的 。 另 外 的 分 析 和 注释 可 以 在 本 章 最 后 一 节 “ 参 考 文献 ”中 许 
”多 参考 的 评注 中 找到 。 

1. E/R 模型 是 否 可 以 作为 关系 模型 的 基础 

通过 从 一 个 不 同 的 角度 考虑 E/R 方法 来 进行 这 个 讨论 。 很 明显 ， 当 Codd 第 一 次 提出 正式 的 关 
系 模 型 的 时 候 ， 一 定 是 E/R 方法 ， 或 一 些 与 这 种 思想 非常 接近 的 想法 ， 支 持 着 Codd 的 思维 的 。 如 
在 14. 2 节 中 所 讨论 的 ， 发 展 一 个 “扩展 的 ”模型 的 总 体 方法 包括 四 个 大 的 方面 ， 如 下 : 

1) 辨别 有 用 的 语义 概念 。 

2) 设计 形式 化 的 对 象 。 

3) 设计 形式 化 的 完整 性 规则 (“元 约束 ”) 。 

4) 设计 形式 化 的 操作 。 

但 是 这 四 步 对 基本 的 关系 模型 的 设计 也 是 适用 的 (并 且 确 实 对 任何 正式 的 数据 模型 适用 )， 并 
不 只 是 应 用 于 “扩展 的 ”模型 ， 如 E/R 模型 。 换 名 话说 ，Codd 为 了 首先 构建 (形式 化 的 ) 基本 的 
关系 模型 ， 必 须 在 头脑 中 具有 某 些 ( 非 形 式 化 的 ) “有 用 的 语义 概念 ”"， 并 且 这 些 概 念 必须 基本 上 
是 这 些 E/R 模型 ， 或 与 之 相 类 似 的 模型 。 事 实 上 ，Codd 的 著作 的 确 表现 出 了 这 种 观点 。 在 他 的 第 
一 篇 有 关 关 系 模型 的 论文 中 (参考 文献 [6.1] 的 1969 版 本 )， 可 以 发 现 如 下 内 容 : 

“一 个 给 定 的 实体 类 型 的 实体 集合 可 以 被 看 作 是 一 个 关系 ， 可 以 称 这 种 关系 为 实体 类 型 关 
系 … 其 他 的 关系 …… 是 在 类 型 之 间 的 …… 被 称 为 是 实体 间 关 系 …… 每 一 个 实体 间 关 系 的 核心 特 
性 [ 它 包括 至 少 两 个 外 码 ] 要 么 是 指 相互 区 别 的 实体 类 型 ， 要 么 是 指 充 当 不 同 角色 的 一 个 共同 
实体 类 型 。 

在 这 里 ，Codd 清楚 地 提出 了 用 来 代表 “实体 ”和 “联系 ”的 关系 。 但 是 (在 很 大 程度 上 ) 
他 的 观点 是 : 关系 是 形式 化 的 对 象 ， 而 且 关 系 模型 是 一 个 形式 化 的 系统 。Codd 的 主要 贡献 是 他 
发 现 了 对 现实 世界 的 某 些 方 面 进行 了 很 好 描述 的 形式 化 模型 。 

与 前 面 刚 刚 讨论 的 相 比 ， 实 体 / 联 系 模型 并 不 是 (或 者 说 至 少 不 是 主要 的 ) 一 个 形式 化 模 
型 。 它 主要 包括 一 组 非 形 式 化 的 概念 ， 这 组 概念 与 前 面 提 到 的 四 步 中 的 步骤 1 相对 应 (此外, 它 
所 进行 的 形式 化 的 方面 看 来 并 不 与 基本 的 关系 模型 相应 的 方面 有 什么 重大 不 同一 一 在 下 面 的 一 个 
小 节 中 有 对 这 个 问题 的 详细 讨论 ) 。 训 无 疑问 ， 具 有 “步骤 1” 概念 的 思想 将 会 对 进行 数据 库 设 
计 的 处 理工 作 很 有 帮助 ， 但 是 如 果 没 有 形式 化 的 对 象 和 步骤 2、3， 数 据 库 设计 就 不 能 完成 ， 其 
他 的 一 些 任 务 没有 步骤 4 的 形式 化 的 操作 也 不 能 完成 。 

请 注意 前 面 的 讨论 并 不 是 要 表明 E/R 模型 没有 用 ， 相 反 它 是 有 用 的 。 但 这 还 不 够 。 而 且 奇 
怪 的 是 最 早 发 表 的 非 形式 化 的 EAR 模型 的 描述 是 在 最 早 的 形式 化 关系 模型 的 描述 发 表 几 年 之 后 ， 
因而 存在 这 样 的 假定 (正如 我 们 已 经 谈 过 的 )， 即 后 者 起 初 是 建立 在 某 些 类 似 E/R 思想 的 基础 
上 的 。 

2. E/R 模型 是 不 是 一 个 数据 模型 

由 前 面 的 讨论 ， 甚 至 不 能 判断 EER“ 模 型 ”是 不 是 一 个 数据 模型 ， 至 少 在 本 书 中 所 用 的 这 
个 术语 本 身 的 意义 上 来 讲 ( 即 作为 正式 的 系统 应 包括 结构 、 完 整 性 和 操作 等 方面 )。 当 然 ， 
“E/R 建 模 ” 这 个 术语 经 常用 来 表示 决定 数据 库 结构 (只 是 数据 库 的 结构 ) 的 过 程 ， 虽然 在 第 
14.3 ~ 14.5 节 2 中 也 简单 地 讨论 了 特定 的 完整 性 因素 问题 〈 主 要 是 与 主 码 和 外 码 相 关 的 问题 ) 。 
然而 ， 仔 细 地 阅读 参考 文献 [14.6] 会 发 现 ，E/R 模型 确实 是 一 个 数据 模型 ， 但 在 本 质 上 只 是 
基础 的 关系 模型 硕 上 的 一 个 薄 层 (正如 一 些 人 所 述 ， 它 当然 并 不 是 替代 关系 模型 的 一 个 候选 模 
型 )， 下 面 证 明 如 下 : 

a 首先 ， 基 本 的 E/R 数据 对 象 (基本 的 正规 对 象 ， 与 不 正规 的 对 象 “ 实 体 ”"、“ 联 系 ” 等 相 








@ ”这 当然 是 一 个 主要 的 弱点 ，E/R 模型 除了 几 个 特殊 的 情况 (公认 是 重要 的 情况 ) 之 外 是 完全 不 能 处 理 完整 性 约 
束 或 “企业 规则 ”的 ， 这 里 引用 一 句 经典 的 话 ;“ 说 明 性 declarative) 的 规则 太 复杂 ， 在 企业 模型 中 很 难 遵循 ， 
必须 由 分 析 员 /开发 人 员 单 独 定义 。”[14.23] 有 一 种 观点 认为 数据 库 设计 应 该 是 -个 限制 应 用 约束 的 过 程 〈 见 
参考 文献 [9.21, 9.22] 和 [14.22 ~14.24]) 。 
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对 立 ) 是 一 个 严 元 关系 。 

se E/R 操作 是 基本 的 关系 代数 的 运算 符 (实际 上 ， 参 考 文献 【14.6] 在 这 一 点 上 解释 得 并 
不 是 非常 清楚 ， 但 提出 一 组 这 样 的 操作 显然 没有 那些 关系 代数 的 操作 全 面 ; 例如 ， 显 然 在 
这 里 没有 并 集 操 作 和 明显 的 连接 操作 ) 。 

m 在 完整 性 方面 ，E/R 模型 有 一 些 关 系 模型 没有 的 功能 : E/R 模型 包括 一 组 内 置 的 完整 性 
规则 ， 与 在 本 书 中 所 讨论 的 一 些 而 不 是 全 部 的 外 码 相 对 应 。 因 此 ,“ 纯 ”关系 系统 需要 用 
户 显 式 地 构建 特定 的 外 码 规则 ， 而 EAR 系统 只 要 求 用 户 标 明 一 个 给 定 的 关系 变量 表示 某 
些 联系 ， 这 样 ， 一 些 外 码 规则 就 可 以 很 好 地 理解 。 

3. 实体 与 关系 

本 书 中 已 经 几 次 指出 ,“ 关 系 ” 最 好 只 被 当 作 一 种 特殊 类 型 的 实体 。 而 相反 地 ， 区 分 这 两 个 
概念 是 E/R 语义 建 模 方案 的 一 个 必要 条 件 。 作 者 的 观点 是 任何 坚持 做 这 样 区 分 的 方法 一 定 是 有 
严重 缺陷 的 ， 因 为 (在 14. 2 节 中 提 到 ) 同一 个 对 象 可 以 被 一 些 用 户 看 作 实 体 而 被 另 一 些 用 户 当 
作 联 系 。 下 面 看 一 个 关于 婚姻 的 例子 : 

wm 从 一 个 角度 看 ， 结 婚 是 两 个 人 之 间 的 联系 。( 一 个 查询 示例 :“ 谁 在 1975 年 和 伊 丽 沙 白 泰 

勒 结婚 ?”) 

s 从 另 一 个 角度 看 ， 对 每 一 个 人 来 说 ， 婚 礼 都 是 实体 。 (查询 示例 : “自从 4 月 份 以 来 在 这 
个 教堂 进行 了 多 少 次 婚礼 ?”) 

如 果 设 计 方 法 强调 区 分 实体 和 联系 ， 那 么 (最 好 的 情况 是 ) 这 两 个 解释 将 会 被 不 平等 地 对 
待 ( 即 “实体 ”查询 和 “联系 ”查询 会 采用 不 同 的 形式 ); 在 最 坏 的 情况 下 ， 一 种 解释 方式 根 
本 不 支持 另 一 种 解释 方式 〈 即 某 一 类 查询 将 无 法 进行 ) 。 

有 关 这 一 点 更 深层 的 说 明 见 [14. 22] 中 关于 EVR 方法 的 介绍 : 

最 初 常见 的 方法 是 ， 在 概念 模式 设计 中 用 属性 [ 特 指 外 码 ] 来 表示 联系 ， 然 后 在 设计 进行 
中 将 这 些 属性 转换 为 联系 ， 使 这 些 属性 更 好 理解 。 

但 是 当 一 个 属性 变 成 一 个 外 码 时 会 发 生 什么 情况 呢 ? 即 数 据 库 在 已 经 存在 了 一 段 时 间 后 发 生 
变化 ,在 这 种 情况 下 会 发 生 什么 呢 ? 如 果 因 此 而 作出 逻辑 结论 ， 那 么 数据 库 设 计 就 应 该 只 包括 联 
系 而 根本 不 包括 属性 。( 事实 上 ， 这 种 设计 确实 有 一 些 好 处 。 见 参考 文献 【14. 23] 的 注释 。) 

4. 最 后 一 个 分 析 

除了 在 本 章 中 描述 的 E/R 建 模 这 个 特定 的 语义 建 模 方案 之 外 还 有 很 多 其 他 的 方案 。 然 而 ， 
这 些 方案 绝 大 部 分 都 具有 一 种 很 强 的 相似 性 ; 特别 是 它们 都 可 以 被 刻画 为 表示 特定 的 外 码 约束 和 
几 个 其 他 的 微小 方面 的 简单 的 图 形 符号 。 这 样 的 图 形 表示 法 在 “大 图 ” (big picture) 方式 中 当 
然 有 用 ， 但 是 它们 太 简 化 了 ， 不 能 应 付 整个 的 设计 工作 2 。 特 别 是 如 前 面 提 到 的 ， 它 们 一 般 不 能 
处 理 通常 的 完整 性 约束 。 例 如 ， 如 何在 一 个 E/R 图 中 表示 一 个 连接 依赖 呢 。 


14.7 小 结 


在 本 章 中 简单 地 介绍 了 语义 建 模 这 个 概念 。 共 包括 四 个 步 又 ， 其 中 第 一 步 是非 正 规 的 ， 而 剩 
下 的 三 步 都 是 正规 的 : 

1) 区 别 语义 概念 。 

2) 设计 相应 的 符号 对 象 。 

3) 设计 相应 的 完整 性 规则 (“ 后 约束 ”) 。 

4) 设计 相应 的 操作 符 。 

一 些 有 用 的 语义 概念 是 实体 、 特 性 、 联 系 和 子 类 型 。 注 意 : 我 们 还 强调 一 点 : 在 语义 建 模 层 
( 非 正规 ) 和 系统 层 (正规 的 ) 之 间 很 可 能 存在 术语 冲突 ， 这 种 术语 冲突 可 能 引起 混乱 1! 

语义 建 模 研究 的 最 终 目的 是 使 数据 库 系统 更 智能 化 。 一 个 更 直接 的 目标 是 为 系统 地 解决 数据 





人 ”遗憾 的 是 ,在 对 IT 界 简 单 的 甚至 过 于 简单 的 答案 是 很 受 欢迎 的 。 就 这 一 情况 ,我 们 赞同 爱 因 斯 坦 说 过 的 ,，“ 等 
件 事 应 该 尽 可 能 地 让 它 变 得 简单 ， 而 不 是 比较 简单 ”。 
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库 设计 中 的 问题 提供 -一 个 基础 。 我 们 描述 了 一 种 特定 的 “语义 ”模型 的 应 用 ， 即 Chen 的 实体 / 
联系 模型 ( E/R 模型 ) 。 与 前 文 所 述 相 联系 ， 需 要 重申 的 是 : 最 初 的 EAR 论文 [14.6] 中 确实 
包含 两 个 互相 区 别 的 多 少 有 些 独 立 的 提议 : 即 提出 了 E/R 模型 本 身 以 及 E/R 图 技术 。 正 如 在 第 
14. 4 节 中 所 论述 的 ，E/R 模型 的 普遍 性 可 以 归功 于 EAR 图表 技 术 而 并 非 其 他 的 原因 。 但 是 只 为 
了 用 图 没 必 要 采用 所 有 的 模型 思想 ; 将 EAR 图 作为 任何 设计 方法 (例如 ， 在 参考 文献 [14.7]】 
的 一 个 基于 RMZT 的 方法 ) 的 基础 都 是 可 能 的 。 有 许多 讨论 将 E/R 模型 和 一 些 其 他 方法 的 相符 
性 作为 数据 库 设 计 的 基础 ， 在 这 些 讨论 中 通常 没 考虑 到 这 一 点 。 

下 面 将 语义 建 模 的 思想 (特别 是 EAR 模型 ) 和 在 第 12、13 章 中 讨论 的 规范 化 理论 作 一 比 
较 。 规 范 化 理论 是 将 大 关系 变量 分 解 为 小 的 关系 变量 ; 它 假定 初始 有 数量 较 少 的 大 关系 变 攻 ， 通 
过 规范 化 理论 将 这 些 大 的 关系 变量 的 初始 输入 变 成 小 的 关系 变量 输出 一 一 即将 大 的 关系 变量 映射 
为 小 的 关系 变量 (当然 ， 在 这 里 只 是 非常 简略 地 提 一 提 ) 。 伍 是 规范 化 理论 却 没有 提 到 如 何 先 得 
到 的 那些 大 的 关系 变量 。 然 而 ， 像 本 章 所 讨论 的 自 上 而 下 的 设计 方法 确切 地 揭示 了 这 个 问题 ; 它 
们 将 现实 世界 映射 到 这 些 大 的 关系 变量 中 。 换 名 话说 ， 这 两 个 方法 〈( 自 上 而 下 的 方法 和 规范 化 
方法 ) 互 为 补充 。 因 此 总 体 设计 过 程 如 下 : 

1) 用 EAR 方法 (或 类 似 的 方法 ?) 产生 “大 的 ”具有 常规 实体 、 弱 实体 等 的 关系 变量 。 

2) 利用 进一步 规范 化 的 思想 将 这 些 “ 大 的 ”关系 变量 分 解 为 “小 ”的 关系 变量 。 

然而 ， 从 本 章 讨 论 的 内 容 上 说 ， 语 义 建 模 还 不 像 在 第 12 章 、13 章 中 讨论 的 进一步 规范 理论 
那样 显得 严格 分 明 。 原 因 是 (正如 在 本 书 这 一 部 分 的 引言 中 所 谈 到 的 ) 数据 库 设 计 是 -一 个 非常 
主观 的 活动 ， 并 不 是 非常 客观 的 ， 可 以 作为 处 理 这 些 问题 的 基本 原理 相对 来 说 是 比较 少 的 ( 当 
然 确实 存在 这 样 的 一 些 原 理 ， 基 本 上 前 两 章 所 讨论 的 内 容 就 是 一 些 这 样 的 基本 原理 )。 虽 然 本 章 
的 方法 在 实际 问题 中 确实 是 有 效 的， 但 它们 仍然 只 能 被 看 作 经 验 准则 。 

最 后 还 有 一 点 要 说 明 。 哩 然 语 义 建 模 思想 在 数据 库 设 计 的 整个 方面 还 有 些 主观 ， 但 在 一 些 具 
体 的 方面 〈 即 在 数据 字典 中 ) 是 非常 有 用 的 。 数 据 字 典 在 某 些 方面 可 以 被 看 作 是 “数据 库 设 计 
者 的 数据 库 ”; 在 这 个 数据 库 中 ,数据库 设计 的 行为 与 其 他 的 操作 一 起 被 记录 。 因 此 语义 建 模 的 
研究 在 数据 字典 系统 的 设计 中 是 很 有 用 的 ， 因 为 它 辨 别 了 字典 本 身 需 要 支持 和 “理解 ”的 一 类 
对 象 一 一 例如 ， 实 体 目录 (entity category) (如 E/R 模型 中 的 常规 实体 和 弱 实体 ) 、 完 整 性 约束 
(如 在 E/R 模型 中 ， 联 系 的 全 部 与 部 分 参与 者 的 表述 ) 、 实 体 超 类 型 和 子 类 型 等 。 


14. 1 谈 谈 对 “语义 建 模 ” 的 理解 。 
14.2” 试 述 在 E/R 模型 中 定义 一 个 “扩展 ”模型 所 包括 的 四 个 步骤 。 
14.3 用 自己 的 话 解 释 以 下 的 EAR 术语 
实体 继承 码 属性 特性 常规 实体 
联系 父 类 型 和 子 类 型 类 型 层次 ” 值 的 集合 弱 实 体 
14.4 假定 在 表示 供应 商 和 零件 的 E/R 图 中 表明 ， 在 供 货 关系 中 参与 者 零件 是 “全 部 的 ”( 也 就 是 ， 每 种 
零件 必须 由 至 少 一 个 供应 商 供应 ) 。 使 用 (a) Tutoriai D，(b) SQL， 如 何 表达 这 一 约束 ? 
14. 5 举 出 下 面 几 种 情况 的 示例 
a 一 个 参与 者 是 弱 实 体 的 多 对 多 联系 。 
b. -一 个 参与 者 是 男 一 个 联系 的 多 对 多 联系 。 
c， 有 一 个 子 类 型 的 多 对 多 联系 。 
d. 一 个 有 父 类 型 中 不 存在 的 弱 实 体 的 子 类 型 。 
14.6 根据 第 9 章 中 练习 9.7 画 一 个 教育 数据 库 的 EAR 图 。 
14.7 根据 第 12 章 中 练习 12. 3 的 公司 员工 数据 库 画 一 个 E/R 图 。 应 用 这 个 图 导出 一 组 适当 的 基本 关系 变 
量 定义 。 





”我 们 首选 的 方法 是 : (a) 写 下 描述 企业 的 外 部 谓词 ， (b) 按照 第 9 章 描述 的 ， 把 这 些 谓词 直接 映射 到 内 部 
谓词 。 
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14.8 根据 第 12 章 中 练习 12. 4 的 数据 库 画 一 个 E/R 图 。 用 这 个 E/R 图 来 导出 一 组 适当 的 基本 关系 变革 定 
义 、 

14.9 根据 第 13 章 的 练习 13. 3 中 的 销售 数据 库 画 一 个 E/R 图 。 利 用 这 个 EAR 图 导出 一 组 适当 的 关系 变量 

14. 10 根据 第 13 章 的 练习 13. 5 中 修改 后 的 销售 数据 库 来 画 一 个 EAR 图。 利用 这 个 EZR 图 导出 - -组 适当 
的 关系 变量 定义 。 
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[14.2] Philip A. Bemstein.” The Repository:A Modern Vision,” DBP 4D 9,No. 12( December 1996 ) . 
在 写 这 篇 论文 的 时 候 好 像 正 在 面临 由 术语 信息 中 心 (repository) 取代 术语 数据 字典 的 趋势 
一 个 信息 中 心 系统 是 特定 应 用 于 元 数据 (metadata) 管理 的 DBMS 一 一 元 数据 并 不 只 是 用 于 
DBMS 而 是 用 于 各 种 类 型 的 软件 工具 ， 引 用 Bernstein 的 话说 :“ 是 软件 设计 、 开 发 和 配置 的 工具 ， 
也 是 与 工程 内 容 相 关 的 管理 工具 ， 比 如 对 电子 设计 、 机 械 设计 、 网 址 和 许多 其 他 方面 的 正式 文档 
的 管理 等 " 。 这 篇 论文 是 有 关 信息 中 心 概 念 的 一 个 辅导 。 
[14.3] Michael Blaha and William Premerlani: Object- Oriented Modeling and Design for Database Applica- 
tions. Upper Saddle River, N. J. : Prentice Hall (1998). 
详细 描述 了 一 个 称 为 对 象 建 模 技术 (OMT) 的 设计 方法 。OMT 可 以 看 作 是 ER 模型 的 -个 
变种 〈 它 的 对 象 是 基本 的 E/R 实体 ) 但 是 它 远 不 只 限于 数据 库 设 计 范 畴 。 见 参考 文献 {14. 37 ] 
的 注释 。 
[14.4] Grady Booch: Object-Oriented Design with Applications. Redwood City, Calif. : Benjamin/ Cummings 
(1991). 
参见 参考 文献 [14. 37] 的 注释 。 
[14.5] Grady Booch, James Rumbaugh, and Ivar Jacobson: The Unified Modeling Language User Guide. Read- 
ing, Mass. : Addison- Wesley (1999). 
参见 参考 文献 [14. 37] 的 注释 。 注 意 ; 两 本 相关 的 书 源 自 相同 的 作者 (排列 顺序 不 同 ): 
《The Unified Modeling Language Reference Manual》 (Rumbaugh, Jacobson, Booch) 和 《The Uni- 
fied Software Development Process》 (Jacobson，Booch，Rumbaugh) ， 它 们 都 是 1999 年 由 Addison- 
Wesley 出 版 的 。 
[14.6] Peter Pin- Shan Chen:”“ The Entity- Relationship Model—Toward a Unified View of Data,” ACM TODS 
1, No. 1 (March 1976). Republished in Michael Stonebraker (ed. ), Readings in Database Systems. San 
Mateo, Calif. : Morgan Kaufmann (1988 ) . 
这 篇 论文 介绍 了 E/R 模型 和 E/R 图 。 在 本 章 中 已 经 介绍 过 ， 这 个 模型 是 随 着 时 间 推 移 不 断 
地 修改 和 完善 的 ; 在 这 第 一 篇 论文 中 提出 的 解释 和 定义 肯定 不 十 分 精确 ， 所 以 这 样 的 完善 是 完全 
必要 的 (一 种 对 E/R 模型 的 批评 是 在 此 模型 中 的 术语 并 没有 一 个 单一 而 完善 的 含义 ， 相 反 却 可 以 
用 很 多 方式 来 解释 。 当 然 ， 整 个 数据 库 领 域 都 受 不 精确 和 术语 冲突 所 苦恼 ， 但 是 E/R 建 模 这 个 具 
体 的 领域 的 情况 却 比 大 多 数 其 他 的 领域 都 差 ) ， 表 现 如 下 : 
正如 在 14. 3 节 中 所 介绍 的 ， 一 个 实体 定义 为 “一 个 可 以 被 清楚 辨识 的 事物 ” ，… 个 联系 定 
义 为 “与 其 他 实体 的 连接 ”。 这 样 ， 第 一 个 问题 出 现 了 : 联系 是 实体 吗 ? 一 个 联系 也 是 
“可 以 被 清楚 辨识 的 事物 ”。 但 是 这 篇 论文 中 下 面 的 几 节 却 保留 了 术语 “实体 ”来 表示 某 
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些 不 是 联系 的 东西 。 假 定 后 面 的 是 有 意 的 解释 ， 那 么 为 什么 有 术语 “实体 /联系 ”模型 出 
现 呢 ? 但 是 这 篇 论文 中 没有 给 出 清晰 的 解释 。 
实体 和 联系 可 以 有 属性 (在 本 章 中 所 应 用 的 是 “特性 ”一 词 ) 。 这 篇 论文 在 这 个 术语 的 含 
义 上 又 出 现 了 自 相 矛盾 的 情况 一 一 首先 它 定 义 了 一 个 属性 ， 它 是 一 个 非 主 码 也 非 主 码 的 任 
何 组 成 部 分 的 特性 (与 关系 的 定义 相对 来 说 )， 但 其 后 它 在 关系 的 意义 上 又 用 到 这 个 术 
语 。 
一 个 联系 的 主 码 被 假定 为 辨别 了 联系 中 的 实体 的 外 码 的 组 合 ( 但 其 中 并 没有 用 到 外 码 这 个 
术语 )。 这 个 假定 只 适用 于 多 对 多 的 联系 ,而且 并 非 总 能 适用 。 例 如 ， 对 于 一 个 关系 变量 
SPD 1S#，P#，DAIE，QTY1 ， 它 代表 了 在 某 些 天 中 某 些 供应 商 提 供 的 某 些 零件 的 数量 ; 
假定 同意 供应 商 可 以 多 次 运送 同样 的 零件 ， 但 是 不 在 同一 天 。 那 么 主 码 (或 者 至 少 是 单独 
的 候选 码 ) 是 1S#，P#，DATE} 的 组 合 ; 然而 可 以 将 供应 商 和 零件 作为 实体 来 看 待 ， 但 
日 期 却 不 能 。 
[14.7] E.F. Codd. “Extending the Database Relational Model to Capture More Meaning,” ACM TODS 4, No.4 
( December 1979). 
在 这 篇 论文 中 ，Codd 介绍 了 一 个 “扩展 ”的 关系 模型 版 本 ， 他 称 之 为 RM/AT。RM/T 论述 
了 与 E/R 模型 同样 的 一 些 问题 ,但 是 它 定义 得 更 详细 。 这 两 种 模型 的 一 些 直接 的 不 同 如 下 : 首 
先 ，RM/AT 对 于 实体 和 联系 并 没有 作 任 何不 必要 的 区 分 (一 个 联系 只 是 作为 一 个 特殊 类 型 的 实体 
类 看 待 )。 第 二 ，RM/T 较 之 E/R 模型 的 结构 和 完整 性 方面 更 庞大 并 且 定 义 得 更 精确 。 第 三 ， 
RMVT 在 基本 的 关系 模型 的 操作 符 基础 上 建立 它 自 己 的 特殊 的 操作 符 (虽然 许多 附加 的 工作 在 后 
面 还 需 完 善 ) 。 
在 大 体 结构 上 ，RM/T 模型 的 内 容 如 下 : 
首先， 实体 〈 包 括 “ 联 系 ") 是 由 EE 关系 和 PP 关系 变量 代表 的 ,2 这 两 种 关系 都 是 一 般 的 
n 元 关系 的 特殊 形式 。E 关系 用 来 记录 存在 的 实体 ，P 关系 用 来 记录 这 些 实体 的 特性 。 
sa 第 二 ， 一 组 不 同 的 联系 可 以 在 实体 中 存在 一 一 例如 ， 实 体 类 型 4 和 B 可 以 用 一 个 关联 
(association) (RM/AT 中 的 多 对 多 联系 的 术语 ) 被 连 在 一 起 ， 或 实体 类 型 了 可 以 是 实体 类 
型 X 的 子 类 型 。RM/T 包括 一 个 正式 的 目录 结构 ， 通 过 这 样 的 结构 系统 就 可 以 了 解 这 些 联 
系 ; 因此 ， 系 统 能 够 保证 由 这 些 联系 所 蕴涵 的 各 种 完整 性 约束 。 
se 第 三 ， 提 供 了 许多 更 高 级 别 的 操作 符 来 方便 不 同 的 RM/AT 对 象 的 处 理 (E 关系 、P 关系 、 
目录 关系 等 )。 
与 E/R 模型 相似 ，RM/T 模型 也 包含 了 图 14-1 中 列 出 的 所 有 的 概念 ( 实体、 特性、 联系 、 
子 类 型 ) 。 它 具体 地 提供 了 一 种 实体 分 类 模式 〈 这 种 模式 在 很 大 程度 上 形成 了 整个 模型 的 最 重要 
的 方面 一 或 者 说 ， 最 直接 可 见 的 方面 ) ， 根 据 这 种 模式 ， 实 体 被 划分 为 三 类 ， 即 内 核 、 特 征 和 
连接 : 
@ 内 核 (kemel) : 内 核实 体 是 指 有 独立 存在 性 (independent existence) 的 实体 : 它们 体现 的 
是 “数据 库 究竟 是 什么 ?”。 换 句 话 说， 内 核 是 既 非 特征 也 非 关联 的 实体 (参见 下 两 条 ) 。 
e 特征 〈characteristic) : 一 个 特征 实体 是 以 描述 和 表现 一 些 其 他 实体 属性 为 主要 目的 的 实 
体 。 特 征 是 它们 所 描述 的 实体 上 的 存在 依赖 (existence- dependent) 。 所 描述 的 实体 可 以 是 
内 核 ， 特 征 和 关联 。 
a 关联 (Association) : 一 个 关联 实体 是 在 两 个 或 多 个 其 他 实体 之 间 的 多 对 多 联系 (或 多 对 
多 对 多 ， 等 ) ， 关 联 的 实体 可 以 是 内 核 、 特 征 和 关联 。 
另外 : 
em 实体 〈 不 管 属于 哪 一 类 ) 可 以 有 特性 。 
s 特别 地 ， 任 何 实体 〈 不 管 其 属于 哪 一 类 ) 都 可 以 指派 〈designate) 一 些 其 他 的 相关 特性 。 
一 个 指派 代表 两 个 实体 之 间 的 多 对 一 联系 。 注 意 : 在 最 初 的 论文 [14.6] 中 没有 讨论 指 
派 ， 这 是 后 来 加 入 的 。 
型 支持 实体 子 类 型 和 超 类 型 。 如 果 了 是 天 的 一 个 子 类 型 ， 那 么 了 是 一 个 内 核 ， 特 征 还 是 关 
联 ， 依 赖 于 X 是 一 个 内 核 、 特 征 还 是 关联 。 
可 以 将 前 面 的 概念 与 E/R 模型 做 一 比较 〈 大 致 上 ) 如下: 一 个 内 核 与 E[R“ 常 规 实体 ” 相 
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当 ， 一 个 属性 与 了 R“ 弱 实体 ”相当 ， 一 个 关联 与 E/R“ 联 系 ”相当 (只 是 多 对 多 情况 )。 
除了 上 面 简单 介绍 的 方面 外 ，RMZAT 还 包括 对 以 下 内 容 的 支持 : (a) 替代 (surrogates) ( 见 
参考 文献 114.21]) ， (b) 时 间 维 (参见 第 23 章 ) ，(c) 各 种 数据 聚集 (参见 文献 [ 14. 40 ， 
14.41] )。 
C. 了 Date:“A Note on One-to-One Relationships,” in Relational Database Writings 1985 - 1989. Read- 
ing，Mass. : Addison- Wesley (1990 ) . 
关于 一 对 一 联系 问题 的 一 个 广泛 的 讨论 ， 证 明了 一 对 一 问题 比 最 初 看 来 要 复杂 得 多 。 
C.J. Date:“Entity/Relationship Modeling and the Relational Model,” in C.J. Date and Hugh Darwen, 
Relational Database Writings 1989 - 1991. Reading, Mass. : Addison- Wesley (1992). 
C.J. Date: “Don'’t Encode Information into Primary Keys!”, in C.J. Date and Hugh Darwen, Rela- 
tional Database Writings 1989 - 1991. Reading. Mass. : Addison- Wesley (1992). 
这 篇 论文 提出 了 一 系列 有 关 “ 智 能 码 ” (intelligent key) 的 非 正式 的 讨论 。 关 于 外 码 问题 见 
参考 文献 [14. 11] 中 的 相关 介绍 。 
C.J. Date: “Composite Keys,”in C. J. Date and Hugh Darwen, Relational Database Writings 1989 - 
1991. Reading. Mass. : Addison- Wesley (1992). 
引 自 摘要 :“ 总 结 了 关于 是 否 支 持 在 关系 数据 库 设 计 中 包含 的 复合 〈 码 ) 的 问题 ,并且 给 
出 …… 一 些 建议 "。 而 且 ， 这 篇 文章 中 指出 了 蔡 代码 (参考 文献 【14. 21] ) 的 问题 。 
C.J. Date:“A Database Design Dilemma?”, http://www. dbpd. com ( January 1999). 
从 表面 判断 ， 一 个 给 定 的 实体 类 型 ， 如 雇员 ， 在 关系 系统 中 既 可 以 通过 雇员 类 型 ( 即 -- 个 
域 ) 表示 ， 也 可 以 通过 雇员 关系 变量 表示 。 这 篇 短文 (基于 参考 文献 [3.3] 的 附件 C) 给 出 了 
如 何在 两 者 中 作出 选择 。 
C.J. Date:“Subtables and Supertables ” Appendix E of reference [3.3]. 
通常 认为 实体 类 型 继承 应 该 在 关系 上 下 文中 通过 一 种 “ 子 表 和 父 表 ”( 实体 子 类 型 映射 到 
一 个 “ 子 表 ”， 实 体 父 类 型 映射 到 一 个 “ 父 表 ”) 的 方式 来 处 理 。 例 如 ，SQL 就 支持 这 样 一 种 方 
法 ( 见 第 26 章 ) ， 某 些 产品 也 支持 。 这 篇 论文 对 此 持 反对 意见 。 
C.J. Date: “Twelve Rules for Business Rules,” htp://www. versata. com (May 1 ,2000 ) . 
提出 了 一 系列 “好 ”的 商业 规则 应 当 遵守 的 规则 或 规定 。 
C.J. Date: “Models, Models, Everywhere, Not Any Time to Think,” hup://www. dbdebunk. com 
(November 2000 ) . 
“模型 ”这 一 术语 在 IT 界 使 用 过 度 (不 是 说 滥用 )， 尤 其 是 在 数据 库 界 。 这 篇 论文 提醒 人 
们 注意 在 这 一 点 上 最 糟 糕 的 无 节制 使 用 ， 并 且说 服 人 们 在 使 用 这 一 术语 时 三 思 而 后 行 。 
C.J. Date:“ Basic Concepts in UML. A Request for Clarification,” htip://www. dbdebunk. com ( De- 
cember 2000/January 2001 ). 
这 篇 论文 分 为 两 部 分 ， 它 详细 参照 了 对 象 约束 语言 OCL， 对 统一 建 模 语言 UML， 进 行 了 检 
验 和 严肃 的 批判 性 的 分 析 。 第 一 部 分 主要 是 关于 “OCL 书籍 ” [14.49]; 第 二 部 分 着 眼 于 
“UML 书籍 ”[14.5]。 
Debabrata Dey, Veda C. Storey, and Terence M. Barron: “ Improving Database Design Through the 
Analysis of Relationships,” ACM TODS 24, No. 4( December 1999 ) . 
Ramez Elmasri and Shamkant B. Navathe: Fundamentals of Database Systems (3d ed. ). Redwood Cit- 
y, Calif. . Benjamin/ Cummings (2000). 
这 本 关于 数据 库 管理 的 教材 中 用 整整 两 章 讨论 了 在 数据 库 设计 中 如 何 使 用 EAR 技术 。 
David W. Embley: Object Database Development: Concepts and Principles. Reading, Mass. : Addi- 
son- Wesley (1998 ) . 
提供 了 一 种 基于 OSM (Object- oriented Systems Model， 面 向 对 象 的 系统 模型 ) 的 设计 方 
法 。OSM 的 某 些 部 分 很 像 ORM [14. 22 ~14.24]。 
Candace C. Fleming and Barbara von Hallé: Handbook of Relational Database Design. Reading, 
Mass. : Addison- Wesley (1989). 
针对 关系 系统 中 数据 库 设计 的 一 个 实用 指南 ， 包 括 基 于 IBM 的 DB2 产品 和 Teradata ( 现 
在 是 NCR) DBC/1012 产品 的 具体 的 例子 。 在 这 本 书 中 逮 辑 设计 和 物理 设计 的 内 容 都 提 到 
了 一 一 昌 然 这 本 书 用 “逻辑 设计 ”的 术语 来 表示 “关系 设计 ”， 用 “关系 设计 ”这 个 术语 包括 
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[14.22] 


[14.23] 
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“物理 设计 ”中 的 一 些 方面 。 
P. Hall, J. Owlett, and S$. J. P. Todd. “Relations and Entities,” in G. M. Nijssen (ed. ), Modelling 
in Data Base Management Systems. Amsterdam Netherlands: North- Holland / New York, N.Y.. 
Elsevier Science (1975). 

这 是 第 -一 篇 详细 论述 替代 码 概念 的 论文 〈 这 个 概念 后 来 用 于 RMAT 中 [14.71)。 和 替代 码 
是 通常 意义 上 的 关系 中 的 码 ， 但 是 有 如 下 几 个 特殊 的 特征 : 

@ 它们 通常 只 包括 -一 个 属性 。 

它们 的 值 只 作为 它们 代表 的 实体 的 替代 。 换 句 话 说， 这 些 值 只 是 表明 相应 的 实体 存 

在 一 一 它们 并 不 带 有 其 他 任何 信息 或 含义 。 
当 一 个 新 实体 插入 到 数据 库 中 ， 就 会 被 赋予 一 个 从 未 用 过 的 替代 码 的 值 ， 并 且 这 个 值 也 
不 会 再 用 ， 甚 至 当 这 个 实体 已 经 被 删除 后 也 不 能 用 。 

最 好 的 情况 是 。 替 代码 是 系统 生成 的 。 但 是 ， 无 论 是 系统 生成 的 还 是 用 户 给 出 的 ， 都 与 替代 码 
这 个 基本 思想 无 关 。 

值得 强调 的 是 替代 码 并 非 〈 如 一 些 作 者 所 认为 的 ) 是 与 “元 组 耳 ” 相 同 。 第 一 ， 明 确 地 
说 ， 元 组 ID 标识 了 元 组 而 替代 码 标识 了 实体 ， 并 且 在 元 组 和 实体 之 间 并 没有 一 对 一 的 联系 
(特别 是 对 导出 元 组 的 也 ) 。 而 且 ， 元 组 ID 有 性 能 上 的 含义 而 替代 码 没有 ; 通过 元 组 ID 来 访问 
元 组 通常 被 认为 是 很 快 的 〈 假 定 元 组 一 至 少 是 在 基本 关系 中 的 元 组 一 直接 映射 了 物理 存储 ， 像 
现在 的 许多 产品 一 样 ) 。 并 且 元 组 ID 通常 是 对 用 户 隐 藏 的 ， 而 替代 码 不 能 对 用 户 隐 藏 (由 于 信 
息 原 理 ) ; 换 名 话说， 不 可 能 像 一 个 属性 值 一 样 来 存储 一 个 元 组 DD， 但 可 以 这 样 存储 一 个 替代 
人 码 。 

简单 一 句 话 : 替代 码 是 一 个 逻辑 概念 ， 而 元 组 ID 是 一 个 物理 概念 。 
Terry Halpin: Information Modeling and Relational Databases: From Conceptual Analysis to Logical 
Design. San Francisco, Calif. : Morgan Kaufmann( 2001). 

详细 阐述 了 ORM ( 见 以 下 两 个 参考 文件 的 注释 ) 。 本 书 讨论 了 (a) ORM 和 E/R 建 模 之 
间 的 关系 ; (b) ORM 和 UML 之 间 的 关系 。 注 意 ; 本 书 主要 是 对 作者 早期 的 书 《Conceptual 
Schema and Relational Database Design (2d edition)》 ©—— 由 Prentice Hall of Australia Pty. , Ltd. 
(1995) 出 版 的 修订 和 扩展 。 
Terry Halpin:“Business Rules and Object- Role Modeling,” DBP &D 9, No. 10 (October 1996). 

一 个 对 象 - 角色 建 模 (object- role modeling，ORM [14. 22j) 的 非常 好 的 介绍 。Halpin 开 
始 其 研究 ， 并 认为 “(不 像 )E/R 建 模 ， 存 在 很 多 方言 ，ORM 只 有 很 少 的 方言 ， 并 且 区 别 很 
小 。”( 注 意 : 其 中 的 一 个 方言 是 NIAM [14. 34]。) ORM 还 以 基于 事实 建 模 著称 ， 因 为 设计 者 
所 做 的 是 写 下 (或 者 是 用 自然 语言 ， 或 者 是 通过 一 种 特殊 的 图 符号 ) 一 系列 基本 事实 (或 是 事 
实 类 型 (fact type) ) ， 这 些 事实 在 一 起 刻画 了 要 被 建 模 的 企业 的 特征 。 这 样 的 事实 类 型 的 例子 
如 下 : 

各 每 一 个 雇员 至 多 有 一 个 雇员 姓名 Empname。 

9 每 一 个 雇员 至 多 向 一 个 雇员 汇报 。 

四 如 果 雇 员 el 向 雇员 e2 汇报 ， 那 么 e2 不 能 向 雇员 el 汇报 。 

e 没有 雇员 可 以 既 指 导 又 进入 同一 个 项 目 。 

正如 所 见 ， 事实 类 型 其 实 就 是 谓词 或 企业 规则 ; 正如 Halipin 的 论文 题目 所 表明 的 ，ORM 
确实 是 数据 库 设 计 方 法 的 精华 ， 它 通常 被 “企业 规则 ”的 倡导 者 和 作者 所 喜欢 。 通 常 ， 在 联系 
中 对 象 所 扮演 的 角色 是 由 事实 指定 的 〈 因 此 有 “对 象 - 角色 建 模 ” 的 名 字 )。 注 意 (a) 在 这 
里 “对 象 ”表示 实体 ， 而 不 是 在 这 本 书 第 六 部 分 中 描述 的 特殊 意义 上 的 对 象 ; (b) 联系 并 不 必 
是 二 元 的 。 然 而 ， 事 实 是 基本 的 一 一 它们 不 能 分 解 为 更 小 的 事实 。 注 意 : 数据 库 只 应 该 包含 在 
概念 层 的 基本 (或 不 可 分 解 的 ) 事实 的 观点 是 由 Hall、Owilett 和 Todd ( 见 参 考 文献 [14.21]) 
更 早 提出 的 。 

观察 到 ORM 没有 “属性 ”概念 。 因 此 ， 在 这 篇 文章 中 显示 ( 见 参 考 文献 【14.24] 的 注 
释 ) ，ORM 设计 在 概念 上 比 E/R 模型 设计 的 相应 部 分 更 简单 并 且 更 强 。 然 而 ， 属 性 可 以 并 且 确 
实 出 现在 由 ORM 设计 所 (自动 ) 产生 的 E/R 模型 或 SQL 中 。 

ORM 还 强调 了 “样本 事实 ” (sample fact) ( 即 样本 事实 实例 一 称 为 命题 (proposition) ) 
的 应 用 ， 即 作为 允许 终端 用 户 检查 设计 合法 性 的 方法 。 基 于 事实 的 建 模 的 方法 是 易 民 的 ， 而 E/ 
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R 建 模 则 要 差 许多 。 

存在 许多 描述 一 个 企业 的 逻辑 上 相同 的 方法 ， 因 此 有 许多 逻辑 上 相同 的 方案 、ORM 包含 
一 组 转换 规则 ， 这 种 规则 允许 逻辑 上 相同 的 方案 互相 转换 ， 所 以 一 个 ORM 工具 在 设计 者 指定 
的 设计 上 可 以 进行 一 些 优化 。 如 前 面 提 到 的 ， 它 还 可 以 从 一 个 ORM 方案 产生 E/R 或 SQL 方 
案 ， 并 且 它 还 能 相反 地 从 一 个 存在 的 E/R 或 SQL 方案 产生 一 个 ORM 方案 。 基 于 DBMS 目标 ， 
一 个 产生 的 SQL 方案 可 以 包含 (SQL/92 标准 ) 定义 的 约束 或 那些 可 以 通过 存储 或 触发 过 程 执 
行 的 约束 。 顺 便 提 及 ， 考 虑 这 些 约束 时 注意 一 一 并 不 像 E/R 建 模 一 一 ORM 定义 时 包含 “一 个 
表现 约束 的 丰富 的 语言 "。 (然而 ，Halpin 在 参考 文献 [14.24] 中 确实 承认 ， 并 不 是 所 有 的 企 
业 规 则 都 可 以 用 ORM 图 形 符号 表现 出 来 一 一 在 这 种 情况 下 ， 文 本 描述 也 还 是 需要 的 )， 

最 后 ,一 个 ORM 方法 可 以 被 看 作 是 一 个 高 级 的 抽象 的 数据 库 视 图 (事实 上 ， 它 是 相当 接 
近 于 一 个 纯粹 的 规则 化 的 关系 视图 ) 。 因 此 ， 它 可 以 直接 查询 。 参 见 下 面 参考 文献 【14. 24] 中 
的 注释 。 

Terry Halpin: “Conceptual Queries,” Data Base Newsletter 26, No. 2 (March/ April 1998 ) . 

引 自 摘要 :“ 在 关系 语言 中 构造 非 平凡 查询 如 SQL 或 QBE， 可 以 证 明 会 使 用 户 县 缩 ，Con- 
Quer， 一 个 基于 对 象 - 角色 建 模 (ORM) 的 新 的 概念 查询 语言 可 以 方便 用 户 以 一 种 易于 理解 的 
方式 构造 查询 ……” 该 文 指出 了 在 构造 查询 和 企业 规则 上 ， 该 语言 要 优 于 传统 查询 诺言 。 在 其 
他 讨论 中 ， 这 篇 论文 还 讨论 了 一 个 如 下 的 ConQuer 查询 : 

Vv Employee 


+ 一 drives Car 
+ 一 works for v Branch 


(“ 找 出 驾驶 轿车 的 雇员 及 其 所 在 部 门 ”) 。 如 果 雇 员 可 以 驾驶 任何 数量 的 小 轿车 但 只 能 在 - 
个 部 门 工作 ， 其 SQL 设计 就 要 包括 两 个 表 ， 产 生 的 SQL 代码 如 下 : 
SELECT DISTINCT X1.EMP#, X1.BRANCH# 


FROM EMPLOYEE AS Xi1, DRIVES AS X2 
WHERE Xl .EMP# = X2.EMP# ; 


现在 假定 对 于 每 一 个 员工 同时 在 多 个 部 门 工作 是 可 能 的 。 那 么 SQL 设计 就 要 变化 为 包括 一 
个 表 而 不 是 两 个 ， 产生 的 SQL 代码 也 将 变化 为 : 
SELECT DISTINCT X1.EMP#, X3.BRANCH# 


FROM EMPLOYEE RS Xi, DRIVES AS X2, WORKS FOR AS X3 
WHERE Xl.EMP# = X2.EMP# AND X1.EMP# = X3.EMP# ; 


然而 ，ConQuer 查询 保持 不 变 。 
正如 上 面 的 例子 所 示 ， 像 ConQuer 这 样 的 语言 可 以 看 作 是 提供 一 个 特别 强 的 逻辑 数据 独立 
性 形式 。 为 了 解释 这 种 说 法 ， 首 先 需要 细 化 ANSLSPARC 体系 结构 。 在 第 2 章 中 提 到 多 辑 数据 
独立 性 表示 对 于 概念 模式 的 变化 的 独立 性 一 一 但 是 ， 前 面 的 例子 的 总 体 观 点 是 概念 模式 的 变化 
并 没有 发 生 ! 问题 是 现在 的 SQL 产品 并 不 能 很 好 地 支持 一 种 概念 模式 ， 而 只 是 支持 SQL 模式 。 
SQL 模式 可 以 被 看 作 是 存在 于 真正 的 概念 层 和 内 部 或 说 物理 层 之 间 的 中 间 层 。 如 果 一 个 ORM 工 
具 人 允许 定义 一 个 真正 的 概念 模式 ， 并 且 将 这 个 模式 映射 到 一 个 SQL 模式 上 上， 那么 ConQuer 就 可 
以 提供 SQL 模式 的 独立 性 〈 当然 是 通过 对 映射 做 适当 的 改变 ) 。 
在 这 篇 论文 中 并 没有 清楚 说 明 ConQuer 的 表现 力 究竟 有 什么 限制 。Halpin 并 不 直接 谈论 这 
个 问题 ;而 是 说 :“ 这 种 语言 应 该 很 完美 地 允许 根据 应 用 来 形成 相应 的 问题 ; 在 实践 中 ， 较 之 稍 
差 一 些 的 语言 也 是 可 以 接受 的 ” 。 它 还 提 到 ConQuer 的 “最 强大 的 特征 …… 是 其 能 够 执行 任意 复 
杂 的 相关 性 查询 ”。 下 面 是 一 个 例子 : 
Vv Employeel 
+ 一 lives in Cityl 
+ 一 was born in Countryl 
+ 一 Supervises Employee2 


+ 一 lives in Cityl 
+ 一 was born in Country2 <> Countryl 


(“ 找 出 监督 一 个 与 其 住 在 同一 个 城市 但 不 在 一 个 城市 出 生 的 和 雇员 的 雇员 信息 " ) 。 正 如 Hal- 
pin 所 说 的 “ 试 着 将 查询 用 SQL 表示 !”。 
最 后 ， 根 据 ConQuer 和 企业 规则 的 观点 ，Halpin 指出 : “虽然 ORM 的 图 形 符号 可 以 较 之 
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[EAR 方法 ] 描述 更 多 的 企业 规则 ， 它 还 是 需要 文本 语言 的 补充 [来 表示 特定 的 约束 ]。 将 Con- 
Quer 应 用 于 这 个 目的 的 研究 正在 进行 。 
M. M. Hammer and D. J. McLeod; “The Semantic Date Model: A Modelling Mechanism for Database 
Applications, ” Proc. 1978 ACM SIGMOD Int. Conf. on Management of Data, Austin, Tex. (May/ 
June 1978). 

语义 数据 模型 (SDM) 代表 另 一 种 数据 库 设计 形式 。 与 E/R 模型 相似 ， 它 关注 了 结构 和 
( 某 种 程度 上 ) 完整 性 方面 的 问题 ， 并 且 在 操作 方面 言 之 很 少 ， 甚 或 什么 都 没有 说 。 见 参考 文献 
[14.26] 和 [14.29]。 
Michael Hammer and Dennis McLeod: “Database Description with SDM: A Semantic Database Mod- 
el,” ACM TODS 6, No. 3 (September 1981 ) . 

见 参 考 文献 【12. 25] 的 注释 。 
Richard Hull and Roger King: “ Semantic Database Modeling: Survey, Applications, and Research 1s- 
sues,” ACM Comp. Surv. 19, No.3 (September 1987). 

一 个 全 面 的 对 在 20 世纪 80 年 代 末 语义 建 模 领域 及 相关 情况 的 综述 。 这 篇 文章 是 对 此 问题 
开始 一 个 更 深入 的 调查 和 研究 语义 建 模 行为 有 关 情 况 的 很 好 的 起 点 。 见 参考 文献 【14. 36]. 
Ivar Jacobson, Magnus Christerson , Patrick Jonsson , and Gunnar Overgaard: Object-Oriented Software 
Engineering( revised printing ). Reading ,Mass. :Addison-Wesley( 1994 ) . 

描述 一 种 称 为 面向 对 象 软件 工程 (OOSE) 的 设计 方法 。 与 OMT [14.3j 相似 ，OOSE 的 
数据 库 部 分 至 少 可 以 看 作 是 E/R 模型 的 一 个 变 体 (与 OMT 相同 ，OOSE 的 对 象 是 基本 的 E/R 
实体 ) 。 下 面 的 引述 是 值得 注意 的 :“ 现 在 在 工业 中 应 用 的 所 有 方法 ， 对 于 信息 技术 系统 发 展 来 
说 ， 都 是 基于 系统 的 函数 和 /或 数据 - 驱动 的 分 解 。 这 些 方 法 在 许多 方面 和 面向 对 象 方法 不 同 ， 
在 后 一 种 方法 中 ， 数 据 和 函数 是 有 很 高 的 结合 度 的 "。 看 起 来 在 这 里 Jacobson 关注 了 在 对 象 和 数 
据 库 思想 之 间 的 重要 的 不 符合 性 。 数 据 库 (至 少 是 普遍 意义 上 的 共享 数据 库 ， 这 种 数据 库 是 数 
据 库 领 域 所 关注 的 主要 焦点 ) 被 假定 是 与 “函数 ”分 离 的 ; 假定 它们 是 与 使 用 它们 的 应 用 系统 
分 离 设计 的 。 因 此 ， 在 对 象 领域 里 ,“ 数 据 库 ”的 含义 是 指 一 个 特定 的 应 用 的 数据 库 ， 并 不 是 一 
个 共享 和 普遍 意义 上 的 数据 库 。( 关 于 这 一 点 ， 见 第 25 章 对 象 数 据 库 的 讨论 ) 。 也 可 见 参考 文献 
[14.5]、[14.16] 和 [14.37]。 
D. Jagannathan et 以 : “SIM: A Database System Based on the Semantic Data Model,” Proc. 1988 
ACM SIGMOD Int. Conf on Management of Data, Chicago , Hl. (June 1988). 

描述 了 一 个 基于 与 Hammer 和 McLeod 在 参考 文献 [14.25] 中 提出 的 语义 数据 模型 相似 的 
“一 个 语义 数据 模型 ”的 商业 化 DBMS 产品 。 
Warren Keuffel. “ Battle of the Modeling Techniques: A Look at the Three Most Popular Modeling No- 
tations for Distilling the Essence of Data,” DBMS 9, No.9 (August 1996). 

“三 个 最 普遍 的 符号 ”是 E/R 建 模 ，Nijssen 的 自然 语言 信息 分 析 方法 ， 即 NIAM [14.34]， 
和 语义 对 象 建 模 ， 即 SOM。Keuffel 称 E/R 建 模 是 其 他 两 种 方法 的 “祖父 ”， 但 是 他 批评 了 这 种 
方法 缺少 正式 的 根基 ; 他 说 ， 实 体 、 联 系 和 属性 ( 即 特性 ) 都 是 “没有 参考 它们 是 怎么 发 现 而 
描述 的 ”。NIAM 更 严格 一 些 ; 当 严 格 遵守 其 设计 规则 时 ， 所 得 出 的 概念 设计 才 比 用 其 他 方法 设 
计 的 东西 “具有 更 多 的 完整 性 ”， 虽 然 “ 一 些 开发 者 发 现 NIAM 的 严格 设计 太 闭 塞 "! 对 于 
SOM， 它 与 “E/R 模型 非常 相似 …… 它 们 有 相同 的 对 于 实体 、 属 性 和 联系 的 模糊 定义 ”; 然而 ， 
它 与 E/R 模型 也 有 不 同 ， 它 支持 组 属性 〈 即 重复 组 ) ， 组 属性 允许 一 个 “对 象 ”( 即 实体 ) 包括 
其 他 对 象 〔E/R 建 模 允 许 实体 包括 属性 的 重复 组 ， 但 不 允许 包含 其 他 实体 ) 。 
Heikki Mannila and Kari-Jouko Riihi; The Design of Relational Databases. Reading, Mass. : Addison- 
Wesley (1992). 

引用 该 书 的 前 言 ， 是 “一 本 适合 研究 生 水 平 的 教材 ， 是 关系 数据 库 设 计 的 参考 书 " 。 它 一 方 
面包 含 依赖 理论 和 规范 化 理论 ， 另 一 方面 包含 了 E/R 方法 ， 每 种 情况 都 是 从 一 个 正规 的 角度 来 
描述 的 。 下 面 的 这 些 章 节 列 出 了 这 本 书 的 大 概 范 围 : 

a 设计 原理 

a 完整 性 约束 和 依赖 

关系 模式 的 特性 

依赖 公理 
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至 有关 设计 间 题 的 算法 

钊 E/R 图 和 关系 数据 库 模式 之 间 的 映射 

a 模式 转换 

如 设计 中 的 实例 数据 库 

作者 对 该 书 介绍 的 技术 ， 用 一 种 称 为 Design By Example 的 工具 加 以 实现 。 

Terry Moriarty : Enterprise View (regular column), DBP &D 10, No.8 (August 1997). 

描述 了 一 种 企业 应 用 设计 和 一 种 称 为 Usoft 的 开发 工具 (http://www. usoft. com) ， 它 们 多 
许 用 一 种 像 SQL 一 样 的 语法 来 定义 企业 规则 ， 并 且 应 用 这 些 规则 产生 应 用 (包括 数据 库 定 义 ) 。 
G. M. Nijssen, D. J. Duke, and S. M. Twine: “The Entity- Relationship Data Model Considered Harm- 
ful,” Proc. 6th Symposium on Empirical Foundations of Information and Software Sciences, Atlanta, 
Ga. (October 1988 ) . 

“E/R 模型 被 认为 是 有 害 的 么 ?” 看 起 来 确实 有 许多 需要 回答 的 地 方 ， 包 括 : 

9 类 型 和 关系 变量 引起 的 混乱 (参见 第 26 章 中 关于 第 一 个 大 错误 的 讨论 ) 。 

关于 “ 子 表 和 父 表 ” 的 奇怪 的 事情 ( 见 参考 文献 [14. 13] 及 第 26 章 ) ; 

a 对 一 个 散布 很 广 的 《数据 库 相 对 准则 》 的 估价 的 失败 (参见 第 10 章 ) ; 

me 实体 和 联系 本 身 引 起 的 混乱 ， 在 前 一 章 论述 。 参 考 文献 【14. 33] 中 提出 许多 疑问 。 有 具体 

地 说 ， 它 声称 E/R 模型 ; 

到 提出 太 多 数据 结构 的 重 登 的 方法 ， 因 此 使 设计 过 程 不 适当 ; 

划 没有 指出 如 何 选择 不 同 的 表示 法 ， 并 且 事 实 上 如 果 环 境 变化 ， 可 以 使 现 有 的 设计 发 生 不 

必要 的 变化 ; 

@ 很 少 支持 保持 数据 完整 性 的 方法 ， 因 此 不 能 完成 设计 过 程 的 某 些 方面 (“ 约 束 可 以 用 一 

个 更 普遍 的 符号 一 一 谓词 逻辑 来 形式 化 地 表示 ， 但 据 此 认为 这 是 一 个 从 数据 模型 中 可 以 
省 略 约束 的 合理 理由 就 不 太 合适 了 ， 这 好 比 一 种 程序 设计 语言 ， 由 于 它 自身 不 能 表达 所 
有 的 功能 ， 所 以 需要 用 户 调用 汇编 语言 来 完成 ， 却 要 称 这 种 程序 语言 是 完善 的 语言 
一 样 ” )。 

与 普遍 的 观点 相反 ， 它 并 不 是 一 个 最 终 用 户 和 数据 库 专业 人 员 之 间 交 流 的 很 好 的 工具 ; 

@ 违反 了 概念 化 原则 :“ 一 个 概念 模式 应 该 …… 只 包括 与 概念 相关 的 方面 ， 不 论 是 动态 的 还 
是 静态 的 ， 排 除 所 有 无 关 的 内 容 ， 如 数据 表示 〈 外 部 的 或 内 部 的 ) 、 物 理 数据 的 组 织 和 存 
取 以 及 消息 格式 、 数 据 结构 等 特定 外 部 用 户 表示 ， 等 等 ”[2.3]。 事 实 上 ， 作 者 瞳 示 E/R 
模型 是 老 的 CODASYL 网 络 模型 的 一 个 “再 生 ”。“ 对 实现 结构 的 强烈 偏见 是 否 成 为 E/R 
模型 在 专业 领域 得 到 这 么 广泛 的 认同 的 主要 原因 呢 ?” 

这 篇 文章 还 详细 地 分 析 了 E/R 模型 的 许多 弱点 。 然 后 提出 了 一 个 可 选 方法 NIAM [14.34j]。 
它 特别 强调 了 NIAM 并 不 包含 E/R 模型 中 所 不 必要 包含 的 属性 和 联系 的 区 别 。 

T. W. Olle, H. G. Sol and A. A. Verrijn- Stuart (eds. ) : Information Systems Design Methodologies: A 
Comparative Review. Amsterdam , Netherlands: North- Holland / New York, N.Y. : Elsevier Science 
(1982). 

IFIP Working Group 8. 1 会 议论 文集 。 描 述 了 13 个 不 同 的 方法 ， 并 且 将 其 应 用 到 一 个 标准 的 
基准 问题 中 。 其 中 的 一 个 方法 就 是 NIAM ( 见 参考 文献 【14.33]) ; 这 篇 论文 一 定 是 最 早 讨论 
NIAM 方法 的 文章 之 一 。 这 本 书 还 包括 对 一 些 所 提出 的 方法 的 回顾 ， 其 中 也 包括 了 NIAM 模型 。 
M. P. Papazoglou:“Unraveling the Semantics of Conceptual Schemas， ”CACM 38, No.9 (September 
1995 ) . 

这 篇 文章 提出 了 一 种 称 为 元 数据 查询 的 方法 一 一 即 根据 数据 库 中 数据 的 意思 进行 的 查询 ， 
换 名 话说， 就 是 根据 概念 模式 本 身 进行 的 查询 。 这 样 的 查询 的 一 个 示例 是 “什么 是 永久 雇员 ? 。 
Joan Peckham and Fred Maryanski: “Semantic Data Models,"ACM Comp. Surv. 20, No.3 《September 
1988 ) . 

另 一 个 综述 ( 见 参 考 文献 【14.27] ) 。 

Paul Reed: “The Unified Modeling Language Takes Shape,” DBMS 11, No. 8 (July 1998). 

统一 建 模 语言 (Unified Modeling Language，UML) ， 是 另 一 个 支持 应 用 设计 和 开发 的 图 符 
号 〈 换 名 话说， 在 其 中 通过 画图 来 开发 应 用 程序 ) 。 它 还 可 以 用 来 开发 SQL 模式 。 注 意 : UML 
很 可 能 会 在 商业 上 很 重要 ， 部 分 原因 是 它 被 对 象 管理 组 OMG 采纳 为 标准 ，UML 具有 一 种 很 强 
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[14. 38] 


[14. 39] 


[14.40] 


[14.41] 


[14. 42 ] 


[14.43] 


[14.44] 


和 三 部 分 用 握 荐 齐 计 


的 对 象 风格 。 它 已 经 被 一 组 商业 产品 所 支持 。 

不 管 怎么 样 ，UML 支持 数据 和 过 程 的 建 模 (从 这 一 点 考虑 ， 它 超出 了 E/R 建 模 的 范围 ) ， 
但 是 在 完整 性 约束 方面 它 似乎 并 没有 说 明 什么 (参考 文献 【14. 37] 中 标题 为 “从 模型 到 代码 : 
企业 规则 ”一 节 中 根本 没有 提 到 declarative 这 个 术语 ! 然而 ， 它 很 重视 利用 过 程 应 用 代码 来 实现 
“处 理 " 。 以 下 是 直接 的 引述 :“UML 形式 化 地 描述 了 为 大 家 所 熟知 的 对 象 概念 : 即 现实 世界 的 
对 象 ， 最 好 作为 既 包 含 数据 又 包含 函数 的 自 含 实体 加 以 建 模 " 。 还 有 : “很 明显 ， 从 一 个 历史 发 
展 的 角度 来 看 ， 数 据 和 函数 的 分 离 导致 了 软件 开发 的 脆弱 ” 。 这 些 评 论 从 一 个 应 用 角度 来 讲 可 能 
是 合理 的 ， 但 是 从 一 个 数据 库 角度 来 看 并 不 一 定 就 合理 。 例 如 ， 见 参考 文献 [25. 25 ] 。 

UML 由 Booch 的 “Booch 理论 ”[14.4] 、Rumbaugh 的 OMT [14.3] 和 Jacobson 的 QOSE 
[14. 28] 的 早期 工作 发 展 而 来 。 也 可 参考 文献 [14.5」 和 [14.6]。 
H. A. Schmid and J. R. Swenson: “On the Semantics of the Relational Data Base Model,” Proc. 1975 
ACM SIGMOD Int. Conf. on Management of Data, San Jose, Calif. (May 1975). 

这 篇 文章 在 Chen 的 E/R 模型 [14.6] 之 前 提出 了 一 个 “基本 的 语义 模型 ”， 但 是 事实 上 它 
与 E/R 模型 非常 相似 〈 当然， 除了 在 术语 的 使 用 上 ; Schmid 和 Swenson 分 别 用 独立 对 象 、 依 赖 
对 象 和 关联 替换 了 Chen 的 常规 实体 、 弱 实体 和 联系 的 术语 ) 。 
丁 F. Sowa: Conceptual Structures: Information Processing in Mind and Machine. Reading, Mass. : Ad- 
dison- Wesley (1984). 

这 本 书 并 不 是 专门 讨论 数据 库 系 统 的 ， 它 可 以 说 是 讨论 知识 表示 和 处 理 的 一 般 问题 。 然 而 ， 
这 本 书 的 一 部 分 是 直接 与 本 章 所 讨论 的 内 容 相关 的 〈 下 面 的 评论 是 基于 Sowa 在 1990 年 或 1990 
年 左右 关于 将 “概念 结构 ”应 用 于 语义 建 模 的 生动 介绍 的 ) 。E/R 图 和 类 似 的 表现 形式 中 一 个 主 
要 的 问题 是 它们 没有 正式 的 逻辑 严密 性 。 因 此 ， 它 们 不 能 处 理 某 些 重要 的 设计 特点 (特别 是 量 
词 ， 这 涉及 到 完整 性 约束 的 处 理 问题 ) 而 形式 逻辑 就 可 以 处 理 这 些 内 容 (量词 是 由 Frege 在 
1879 年 提出 的 ， 这 使 得 E/R 图 只 能 成 为 “一 种 1879 年 以 前 的 逻辑 ”) 。 但 是 形式 逻辑 不 易 为 接 
受 ; 正如 Sowa 所 说 :“ 谓 词 演算 与 知识 表示 语言 非常 相似 " 。 概 念 图 是 一 种 可 读 的 、 严 格 的 图 符 
号 ， 它 可 以 表示 整个 逻辑 。 因 此 它们 (Sowa 称 ) 比 E/R 图 和 类 似 的 图 表 更 适合 用 于 语义 建 模 。 
了 M. Smith and D. C. P. Smith: “ Database Abstractions: Aggregation,” CACM 20, No.6 (June 
1977 ) . 

见 参考 文献 [14.41] 。 
J. M. Smith and D. C. P. Smith :“Database Abstractions: Aggregation and Generalization,” ACM TODS 
2, No.2 (June 1977). 

这 两 篇 论文 [14. 40] 和 [14.41] 所 提出 的 内 容 对 RM/AT [14.7] 有 很 重要 的 影响 ,特别 
是 在 实体 子 类 型 和 超 类 型 方面 。 
Veda C. Storey: “Understanding Semantic Relationships,” The VLDB Journal 2, No.4 (October 
1993). 

引 自 摘要 :“ 语 义 数据 模型 应 用 抽象 ， 如 子 类 型 、 聚 合 以 及 关联 的 方式 (在 数据 库 领域 ) 
都 得 到 了 很 好 的 发 展 。 除 了 这 些 常见 的 联系 ， 许 多 其 他 的 语义 联系 也 被 研究 者 在 其 他 领域 规则 
中 辨识 出 来 ， 如 语言 学 、 逻 辑 和 认 知 心理 学 领域 。 这 篇 文章 探讨 了 一 些 这 样 的 联系 并 且 讨 论 
了 …… 它 们 对 数据 库 设 计 的 影响 。” 
B. Sundgren: “The Infological Approach to Data Bases,” in J. W. Klimbie and K. L. Koffeman (eds. ) ， 
Data Base Management. Amsterdam, Netherlands: North- Holland / New York, N.Y. : Elsevier Sci- 
ence ( 1974). 

“信息 逻辑 方法 ” (infological approach) 是 最 早 被 提出 的 逻辑 建 模 方法 之 一 。 它 在 Scandina- 
via 数据 库 设 计 领 域 成 功 地 应 用 了 许多 年 。 
Dan Tasker: Fourth Generation Data: A Guide to Data Analysis for New and Old Systems. Sydney ， 
Australia: Prentice Hall of Australia Pty., Ltd. (1989). 

数据 库 设 计 的 实用 指南 ， 它 将 重点 放 在 单个 数据 项 (data item) 上 ( 即 放 在 域 上 ) 。 数 据 项 
被 分 为 三 种 基本 种 类 : 标签 、 数 量 和 描述 。 标 签 项 代表 实体 ; 在 关系 术语 中 ， 它 与 主 码 和 外 码 
相对 应 。 数 量 项 代表 一 个 范围 (scale) (可 能 是 一 个 时 间 列 范围 ) 的 数量 、 量 度 或 状态 ,并 且 用 
于 常规 的 算术 操作 。 描 述 项 是 所 有 剩 下 的 部 分 〈 当然 ， 对 这 种 分 类 方案 的 论述 很 详细 ， 而 这 里 
的 简要 介绍 则 不 能 完全 概括 ) 。 这 本 书 还 详细 介绍 了 每 一 种 类 型 。 这 些 讨论 并 不 总 是 “ 纯 关 系 ” 





[14.45] 


[14. 46] 


[14.47] 


[14. 48] 


[14.49] 
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的 (例如 ，Tasker 对 “ 域 ”这 个 词 的 使 用 就 与 其 在 关系 上 的 使 用 不 完全 相同 ) 但 是 这 本 书 提供 
了 很 多 可 行 的 实际 建议 。 
Toby J. Teorey and James P. Fry: Design of Database Structures. Englewood Cliffs, N.J. : Prentice 
Hall (1982). 

是 一 本 有 关 数 据 库 设计 方方面面 的 教科 书 。 这 本 书 分 为 五 部 分 : 引言 、 概 念 设计 、 实 现 设 
计 (即将 概念 设计 映射 到 一 个 具体 的 DBMS 可 以 理解 的 结构 上 ) 、 物 理 设计 和 特殊 的 设计 问题 。 
Toby J. Teorey, Dongging Yang, and James P. Fry: “A Logical Design Methodology for Relational 
Databases Using the Extended Entity -Relationship Model,” ACM Comp. Surv. 18, No.2 (June 1986). 

论文 题目 为 “扩展 的 E/R 模型 ”提出 了 对 实体 类 型 层次 、 空 值 (null) (参见 第 19 章 ) 和 
包含 两 个 以 上 参与 者 的 联系 的 支持 。 
Toby J. Teorey: Database Modeling and Design: The Entity- Relationship Approach (3rd edition). San 
Francisco, Calif. : Morgan Kaufmann ( 1998 ) . 

近期 出 版 的 一 本 关于 数据 库 设计 中 E/R 应 用 和 “扩展 ”的 E/R 概念 【14.41] 的 教科 书 。 
Yair Wand, Veda C. Storey, and Ron Weber: “An Ontological Analysis of the Relationship Construct 
in Conceptual Modeling,” ACM TODS 24, No. 4( December 1999 ) . 
Jos Warmer and Anneke Kleppe: The Object Constraint Language: Precise Modeling with UML. Read- 
ing, Mass. : Addison- Wesley( 1999 ) . 

见 参考 文献 [14. 16] 的 注释 。 





第 四 部 分 事务 管理 


这 一 部 分 由 两 章 组 成 ， 内 容 分 别 是 恢复 和 并 发 ， 其 内 容 彼此 交错 ， 共 同 构 成 了 事务 管理 的 主 
要 内 容 。 为 便于 教学 ， 将 这 部 分 内 容 组 织 为 两 个 章节 。 
恢复 和 并 发 ， 或 者 叫 恢复 和 并 发 控制 ， 都 是 关于 数据 保护 的 一 一 即 保 证 数据 不 丢失 或 被 毁 


坏 。 恢 复 和 并 发 尤其 关注 以 下 问题 : 
下 系统 在 执行 程序 的 过 程 中 会 出 现 故障 ， 因 此 会 使 数据 库 处 于 一 个 未 知 状态 ; 
里 两 个 程序 在 同时 执行 《 即 “ 并 发 ") 时 ,会 相互 交错 干扰 ， 因 此 会 造成 不 正确 的 结果 ， 这 
种 错误 有 可 能 发 生 在 数据 库 的 内 部 ， 也 可 能 发 生 在 外 部 的 现实 世界 。 
第 15 章 是 有 关 恢 复 的 内 容 ， 第 16 章 则 是 关于 并 发 的 讨论 。 





第 15 章 恢复 


15.1 引言 

让 如 在 本 部 分 的 引言 中 提 到 的 那样 ， 恢 复 和 并 发 控制 的 内 容 彼此 交错 。 为 了 教学 的 日 的 ， 也 
为 了 更 清楚 地 并 述 这 两 个 概念 ， 特 将 它们 分 成 两 章 。 在 这 一 章 我 们 集中 讨论 恢复 的 内 容 ， 并 发 将 
在 第 16 章 讨 论 (本 章 将 不 可 避免 地 多 次 引用 后 一 章 的 内 容 ， 特 别 是 在 15. 4 节 )。 

数据 库 系 统 中 的 恢复 (recovery) 主要 指 恢复 数据 库 本 身 ， 即 在 故障 引起 数据 库 当 前 状态 不 
-一 致 后 将 数据 库 恢 复 到 某 个 正确 状态 或 一 致 状态 。 (将 在 第 五 部 分 详细 阐述 “数据 库 正确 状态 ” 
的 含义 。) 恢复 的 原理 很 简单 ， 可 以 用 一 个 词 来 概括 ， 即 宛 余 〈redundancy) 。( 元 余 是 物理 级 的 ， 
我 们 通常 认为 逻辑 级 没有 宛 余 ， 其 原因 将 在 本 书 的 其 他 部 分 详细 阐述 。) 换 名 话说， 确定 数据 库 
是 否 可 恢复 的 方法 就 是 : 确定 其 包含 的 每 一 条 信息 是 否 都 可 利用 宛 余地 存储 在 系统 中 的 信息 重 
构 。 

在 进行 其 他 深入 的 讨论 前 ,我们 需要 先 弄 清楚 ， 恢 复 的 思想 (实际 上 是 整个 事务 处 理 的 思 
想 ) 与 系统 是 关系 型 还 是 层次 、 网 状 或 其 他 模型 无 关 一 一 虽然 过 去 或 将 来 大 部 分 关于 事务 处 理 
过 程 的 理论 研究 都 是 基于 关系 型 系统 的 。 我 们 必须 清醒 地 意识 到 这 是 一 个 内 容 丰 富 的 课题 ， 所 以 
在 这 里 只 介绍 有 关 恢 复 的 最 重要 和 最 基本 的 思想 ， 若 要 对 恢复 作 进 一 步 的 了 解 ， 可 参看 “参考 
文献 ”一 节 (尤其 推荐 参考 文献 [15. 12] ) 。 

本 章 各 节 的 内 容 如 下 : 在 引言 之 后 ，15.2 节 和 15. 3 节 给 出 了 事务 的 基本 定义 以 及 事务 恢 
复 的 基本 思想 (将 数据 库 从 单个 事务 故障 中 恢复 ) ; 15.4 节 将 事务 恢复 的 思想 扩展 到 系统 恢 
复 (将 系统 从 引起 多 个 并 发 事务 同时 发 生 故 障 的 系统 崩溃 中 恢复 ); 15.5 节 将 事务 恢复 的 思 
想 继续 扩展 到 介质 故障 恢复 (在 数据 库 物理 上 受到 损害 后 恢复 ， 这 样 的 损害 如 磁盘 的 磁头 碰 
撞 等 ); 15.6 节 介 绍 一 个 相当 重要 的 概念 一 一 两 阶段 提交 (two-phase commit) ; 15.7 节 讨 论 
保存 点 (savepoint) ; 15. 8 节 描 述 SQL 中 的 相关 语句 ; 15.9 节 进 行 了 小 结 ， 并 给 出 结论 性 的 
评论 。 

最 后 需要 补充 一 点 : 我 们 假设 数据 库 环 境 是 很 “大 ”的 ， 即 共享 、 多 用 户 的 。“ 小 ” 
的 ， 即 非 共享 、 单 用 户 的 DBMS 通常 不 提供 或 只 提供 很 少 的 一 部 分 恢复 支持 ， 这 种 环境 下 
恢复 是 用 户 的 责任 。 这 就 意味 着 用 户 必 须 进行 周期 性 的 数据 库 备 份 ， 当 故障 发 生 时 必须 手 
工 恢 复 。 


15.2 事务 


事务 是 一 个 逻辑 工作 单元 (logical unit of work); 它 以 一 个 BEGIN TRANSACTION 作为 动 
作 执 行 的 开始 ， 以 一 个 COMMIT 或 者 ROOLBACK 作为 动作 执行 的 结束 。 参 看 图 15-1， 图 中 的 
伪 代 码 描述 了 一 个 将 100 元 从 账户 123 转移 到 账户 456 的 事务 。 可 以 看 到 , “将 一 个 账户 上 的 钱 
转账 到 另 一 个 账户 ”的 这 样 一 个 原子 操作 ， 实 际 上 包含 了 对 数据 库 的 两 个 独立 的 更 新 。 数 据 库 
的 两 次 更 新 之 间 存 在 一 个 错误 的 状态 ， 这 个 状态 不 能 在 现实 世界 的 事务 状态 中 找到 对 应 物 。 可 以 
肯定 的 是 ， 现 实 中 的 一 次 转账 并 不 影响 那些 账户 上 的 总 金额 ， 但 是 在 这 个 例子 事务 的 两 次 更 新 之 
间 ， 有 100 元 暂时 地 丢失 了 。 所 请 逻辑 工作 单元 ， 是 指 一 个 事务 并 不 是 只 能 包含 一 个 单一 的 数据 
库 操作 ; 相反 ， 它 包含 一 个 操作 序列 ， 保 证 数据 库 是 从 一 个 正确 的 状态 转移 到 另外 一 个 正确 的 状 
态 ， 中 间 状 态 无 须 保 证 正确 性 。 

显然 ， 上 例 的 两 个 更 新 操作 中 一 个 执行 而 另 一 个 未 执行 的 情况 是 不 允许 发 生 的 ， 否 则 会 使 数 
据 库 处 于 不 一 致 的 状态 。 理 想 的 办 法 是 可 靠 地 保证 这 两 个 操作 都 被 执行 ， 很 不 幸 ， 不 可 能 提供 这 
样 的 保证 一 一 错误 不 可 避免 ， 且 可 能 发 生 最 坏 的 情况 。 如 两 次 更 新 之 间 发 生 系统 崩溃 ， 后 面 一 次 








务 15 舍 尽 复 28] 


更 新 时 发 生 运算 溢出 ， 等 等 。” 支持 事务 管理 (transaction management) 的 系统 提供 了 另 -- 种 相 
当 可 靠 的 保证 方式 。 它 保证 如 果 事 务 执 行 了 几 个 更 新 操作 ， 并 在 事务 结束 前 发 生 了 故障 ， 这 些 更 
新 操作 将 被 撤消 。 也 就 是 说 ， 事 务 或 者 完全 执行 ， 或 者 全 部 取消 〈 就 像 根本 没 执行 过 ) 、 尽 管 操 
作 序 列 本 质 上 不 是 原子 的 ， 但 从 外 部 的 角度 看 就 像 是 原子 的 一 样 。 


BEGIN TRANSACTION ; 





UPDATE ACC 123 { BALANCE := BALANCE - $100 }: 
IF any error occurred THEN GO TO UNDO ; END IF ; 


UPDATE ACC 456 { BALANCE := BALANCE + $100 } ; 
IF any error occurred THEN GQ TO UNDO ; END IE : 


COMMIT ; /* 成 功 终止 */ 
GO TO FINISH ，; 





UNDO 


ROLLBACK ; /* 未 成 功 终止 */ 
FINISH : 
RETURN ， 


图 15-1 事务 例子 〈 伪 代码 ) 


提供 原子 性 保证 的 系统 组 成 部 分 是 事务 管理 器 (transaction manager) ， 亦 称 为 事务 处 理 监控 
器 (transation processing monitor 或 TP monitor) ，COMMIT (提交 ) 和 ROLLBACK ( 问 滚 ) 抬 
作 是 其 中 的 关键 。 

s COMMIT 操作 表明 事务 成 功 地 结束 : 该 操作 告诉 事务 管理 器 一 个 钦 辑 工作 单元 已 成 功 完 

成 ， 数 据 库 应 该 又 处 于 一 个 一 致 性 状态 ， 该 工作 单元 的 所 有 更 新 操作 现在 可 被 提交 或 永久 
保留 。 

ma ROLLBACK 操作 表明 事务 没有 成 功 结束 : 该 操作 告诉 事务 管理 器 出 故障 了 上 ， 数 据 库 可 能 

处 于 不 一 致 的 状态 ， 该 逻辑 工作 单元 已 做 的 所 有 更 新 操作 必须 回 滚 或 撤消 。 

因此 ， 对 上 面 的 例子 ， 在 两 个 更 新 操作 成 功 执行 完 后 ， 可 发 出 COMMIT 命令 提交 数据 库 所 
发 生 的 变化 并 使 结果 永久 保存 。 如 果 发 生 了 错误 ， 也 就 是 说 ， 若 任何 一 个 更 新 操作 产生 了 错误 ， 
必须 发 出 ROLLBACK 命令 撤消 已 做 的 所 有 更 新 。 

我 们 可 以 从 图 15-1 的 简单 例子 中 得 出 以 下 几 点 重要 的 共识 : 

s 隐 式 的 ROLLBACK: 上 面 的 例子 包含 了 显 式 的 检查 ， 如 果 检 测 到 错误 ， 则 执行 显 式 的 
ROLLBACK。 但 是 ， 我 们 不 能 假设 也 不 想 假 设 事务 总 是 包含 对 所 有 可 能 错误 的 检查 ， 央 
此 ， 我 们 对 任何 非 正常 结束 的 事务 (“正常 结束 ” 意 昧 着 一 个 显 式 的 COMMIT 或 者 显 式 
的 ROLLBACK) 执行 隐 式 的 ROLLBACK。 
消息 处 理 (message handling) : 一 个 典型 的 事务 往往 不 只 是 更 新 或 者 试图 更 新 数据 库 ， 它 
同时 向 终端 的 客户 返回 必要 的 信息 ， 表 明 执行 情况 。 在 上 面 的 例子 中 ， 如 果 事 务 执 行 到 
COMMIT， 返 回 一 条 “转账 成 功 ”的 消息 ; 否则 返回 一 条 “错误 一 一 转账 没有 完成 ”的 
消息 。 这 里 消息 处 理 同时 也 暗示 着 恢复 操作 发 生 。 请 见 参考 文献 [15. 12] 中 对 此 的 详细 
讨论 。 

s 恢复 日 志 : 撤消 更 新 是 否 可 以 实现 呢 ? 回答 当然 是 肯定 的 。 系 统 在 磁带 或 者 磁盘 〈 更 普 
遍 ) 上 维护 一 个 日 志 ， 更 新 的 所 有 细节 ， 特 别 是 更 新 对 象 (例如 元 组 ) 在 更 新 前 后 的 值 
(也 称 前 像 快照 和 后 像 快照 ) 都 被 记录 在 日 志 中 。 当 需要 撤消 更 新 时 ， 系 统 使 用 相应 的 日 
志 记 录 将 更 新 对 象 还 原 到 它 更 新 前 的 值 。 注 意 : 这 个 解释 有 点 过 于 简单 了 ， 实 际 上 ， 日 志 
包括 两 个 部 分 : 一 个 活动 的 联机 部 分 和 一 个 存档 的 脱 机 部 分 。 系 统一 般 的 记录 的 更 新 操作 








馈 ” 系 统 崩溃 会 影响 到 正在 运行 的 所 有 事务 ， 也 称 为 全 局 故障 或 者 系统 故障 ; 运算 洲 出 常常 只 影响 个 事务 ， 也 称 
为 局 部 故障 。 请 分 别 参考 15.4 节 和 15. 3 节 。 
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第 四 间 分 下 和 姑 灌 理 


仅仅 和 联机 的 日 志 部 分 交互 ， 这 部 分 保存 在 磁盘 上 ， 当 联机 部 分 的 日 志 充 满 时 ， 它 的 内 容 
被 转移 到 脱 机 的 部 分 ， 脱 机 部 分 可 以 存放 在 磁带 上 (因为 对 它 的 访问 总 是 顺序 的 ) 。 

语 旬 原子 性 (statement atomicity ) : 系统 必须 保证 各 个 独立 的 语句 的 执行 是 原子 的 。 这 一 
点 在 关系 数据 库 系统 中 显得 尤其 重要 。 因 为 它 的 语句 是 集合 操作 而 且 往往 是 在 多 个 元 组 上 
同时 进行 ， 不 能 允许 一 个 语句 在 执行 的 过 程 中 失败 (例如 一 部 分 元 组 被 更 新 而 男 一 部 分 
没有 更 新 ) 而 使 数据 库 处 于 错误 状态 。 换 言 之 ， 如 果 在 一 个 语句 执行 的 过 程 中 发 生 了 错 
误 ， 数 据 库 系统 必须 保持 状态 不 变 。 正 如 在 第 9 章 和 第 10 章 中 提 到 的 那样 ， 如 果 某 个 语 
句 会 引起 隐 式 的 额外 更 新 〈 比 如 存在 级 联 删 除 规则 或 者 一 个 连接 视图 被 更 新 的 情况 ) ， 语 
名 的 原子 性 同样 需要 保证 。 

程序 执行 是 一 个 事务 的 序列 ， COMMIT 和 ROLLBACK 只 是 一 个 事务 的 结束 ， 而 不 是 应 用 
程序 的 结束 。 一 个 程序 通常 由 几 个 事务 依次 执行 组 成 的 序列 构成 ， 如 图 15-2 所 示 。 


一 - 第 1 个 事务 一 
十 


Program BEGIN COMMIT 
initiation TRANSACTION 








第 2 个 事务 





BEGIN ROLLBACK 
TRANSACTION 


第 3 个 事务 


BEGIN COMMIT Program 
TRANSACTION termination 


图 15-2 程序 的 执行 是 一 个 事务 序列 


没有 绒 套 的 事务 : 在 这 里 ， 我 们 假定 应 用 程序 只 有 在 当前 没有 事务 正在 执行 的 时 候 才能 执 
行 BEGIN TRANSACTION 语句 。 也 就 是 说 ， 在 一 个 事务 执行 的 过 程 中 不 能 有 其 他 的 事务 
嵌 套 执行 。 但 是 请 注意 在 下 一 章 我 们 将 重新 讨论 这 个 假定 。 

正确 性 : 根据 定义 ， 数 据 库 必 须 总 是 在 一 致 的 状态 中 。 按 照 第 9 章 (实际 上 是 按照 一 般 语 
义 ) 的 描述 ， 一 致 性 的 精确 定义 是 “不 破坏 任何 已 知 的 完整 性 约束 " 。 一 致 性 是 由 DBMS 
来 保证 的 。 而 事务 的 定义 是 将 数据 库 从 一 个 一 致 状态 转换 到 另 一 个 一 致 状态 。 但 是 ， 仪 有 
一 致 性 是 不 够 的 ; 我 们 还 需要 正确 性 。 在 图 15-1 所 示 的 事务 例子 中 ， 我 们 希望 保持 账户 
123 和 账户 456 上 的 总 金额 不 变 。 但 是 ， 定 义 那 样 的 完整 性 约束 是 不 切实 际 的 ， (为 什 
么 ?) 所 以 我 们 不 能 期 望 由 DBMS 来 实现 这 样 的 需求 。 事 实 上 ， 在 第 9 章 的 学 习 中 我 们 已 
经 知道 一 致 性 并 不 意味 着 正确 性 。 因 此 ， 我 们 和 DBMS 都 只 能 够 假设 事务 总 是 正确 的 ， 
它们 正如 入 们 所 设想 的 那样 仅仅 是 反映 现实 的 操作 。 下 面 给 出 更 准确 的 描述 : 我 们 假设 一 
个 事务 了 将 数据 库 从 状态 D1 转换 到 D2， 如 果 D1 正确 ,那么 D2 也 正确 。” 值得 重申 的 
是 ， 系 统 不 能 保证 这 个 期 望 的 特性 (我 们 在 第 9 章 曾 提出 : “系统 不 能 保证 正确 性 ， 只 能 
保证 一 致 性 ” )。 

多 任务 (multiple assignment) : 回顾 第 $ 章 ， 并 参考 文献 [3.3] ， 我 们 需要 支持 多 任务 ， 
即 允 许多 个 独立 的 作业 比如 更 新 ) “同时 ”执行 。 例 如 ， 图 15-1 中 的 两 个 单独 的 更 新 
可 以 用 下 面 的 单个 语句 来 代替 (注意 逗号 分 隔 符 ) : 








同时 请 注意 ， 这 个 假设 对 于 所 有 可 能 正确 的 状态 D1 都 成 立 。 诚 然 ,7 很 可 能 并 不 能 “如 期 望 的 那样 反映 现实 的 
操作 ” ， 但 是 仍然 能 够 从 上 述 的 D1 开始 产生 一 个 正确 的 状态 D2， 但 是 这 还 不 够 :我 们 希望 保证 正确 性 而 不 是 偶 








UPDATE ACC 123 { BALANCE := BALANCE - $100 }》 ， 
UPDATE ACC 456 { BALANCE := BALANCE + $100 }，; 


现在 事务 将 只 包含 一 个 更 新 操作 ; 这 样 它 对 数据 库 的 作用 从 定义 上 说 就 是 原子 的 。 至 少 在 
这 个 例子 中 ，BEGIN TRANSACTION 、COMMIT 和 ROLLBACK 语句 都 不 再 需要 。 但 是 ， 
在 第 5 章 我 们 已 经 知道 现在 的 产品 还 不 支持 多 任务 (至 少 不 能 完全 支持 ) ; 出 于 实际 的 考 
虑 ， 在 本 章 接 下 来 的 部 分 中 我 们 不 再 考虑 多 任务 的 可 能 性。( 事 实 上 ， 甚 至 在 关于 事务 的 
初始 的 理论 阶段 的 讨论 中 就 没有 考虑 多 任务 ， 详 细 的 讨论 请 参考 16. 10 节 。) 


15.3 事务 恢复 


一 个 事务 以 BEGIN TRANSACTION 语句 开始 ， 以 COMMIT 或 ROLLBACK 语句 结束 。 
COMMIT 建立 了 一 个 提交 点 (commit point) (在 一 些 比较 老 的 数据 库 产 品 中 也 称 为 同步 点 
(Syncpoint) ) 。 提 交点 标志 着 逻辑 工作 单元 的 结束 ， 也 标志 着 数据 库 处 于 或 应 该 处 于 一 致 状态 。 
相反 ，ROLLBACK 将 数据 库 回 滚 到 BEGIN TRANSACTION 的 状态 ， 实 际 上 就 是 回 滚 到 前 一 个 提 
交点 。( 这 里 “前 一 个 提交 点 ”的 表述 是 正确 的 ， 即 使 该 事务 是 程序 的 第 一 个 事务 ， 可 将 程序 的 
第 一 个 BEGIN TRANSACTION 默认 为 初始 的 “提交 点 ”。) 

注意 : 这 里 的 术语 “数据 库 ” 实 际 指 事务 所 存 取 的 那 部 分 数据 库 ， 其 他 事务 可 能 与 该 事务 
并 行 地 执行 ， 对 自己 的 那 部 分 数据 库 进 行 更 新 ， 因 此 ， 整 个 “数据 库 ” 在 提交 点 不 可 能 处 于 完 
全 一 致 的 状态 。 然 而 正如 在 15. 1 节 中 所 述 ， 我 们 这 里 不 考虑 并 发 事务 ， 这 种 简化 并 不 影响 讨论 。 

当 设 置 提交 点 时 : 

1) 正如 15.2 节 所 说 ， 执 行程 序 中 上 一 个 提交 点 以 前 的 所 有 更 新 操作 都 被 提交 ， 即 结果 被 永 
久保 存 。 在 提交 点 之 前 所 有 的 更 新 操作 都 应 看 作 是 不 确定 (tentative) 的 ， 不 确定 意味 着 它们 接 
下 来 可 能 被 撤消 〈 即 回 滚 ) 。 一 旦 提交 ， 任 何 一 个 更 新 操作 都 不 能 被 撤消 (这 就 是 “提交 ”的 定 
义 ) .9 | 

2) 所 有 的 数据 库 定位 (database positioning) 将 消失 ， 所 有 的 元 组 锁 (tuple lock) 都 将 被 释 
放 。 这 里 “数据 库 定 位 ” 指 在 任意 时 间 点 ， 一 个 执行 程序 将 具有 对 某 些 特定 元 组 的 寻 址 能 力 
(如 通过 第 4 章 中 SQL 的 游标 ) ， 在 提交 点 该 寻 址 能 力 将 消失 。“ 元 组 锁 ” 将 在 下 一 章 中 解释 。 
注意 : 有 些 系统 提供 可 选项 使 程序 实际 在 从 一 个 事务 转向 另 一 事务 时 仍 保持 对 元 组 的 寻 址 能 力 
(因此 也 保持 元 组 锁 ) ， 这 类 操作 已 被 加 入 到 了 SQL: 1999 中 。15. 8 节 将 有 更 进一步 的 讨论 。 

注意 : 上 述 第 2 点 (不 包括 可 能 保持 一 定 的 寻 址 能 力 以 及 元 组 锁 的 说 明 ) 对 以 ROLLBACK 
结束 而 不 是 以 COMMIT 结束 的 事务 也 适用 ， 而 第 1 点 显然 不 适用 。 

现在 我 们 可 以 看 出 ， 事 务 不 仅 是 工作 单元 ， 而 且 是 恢复 单元 。 因 为 一 旦 事务 成 功 提交 ， 系 统 
将 保证 其 更 新 永久 作用 到 数据 库 上 ， 即 使 系统 在 紧 接 下 来 的 时 刻 就 崩溃 了 。 举 个 例子 ， 在 COM- 
MIT 刚 被 确认 ， 而 更 新 没有 物理 地 写 入 数据 库 之 前 ， 系 统 是 可 能 崩 省 的 ， 这 时 数据 可 能 仍 在 主 存 
缓冲 区 中 ,” 并 在 系统 崩溃 时 全 部 丢失 。 即 使 这 种 情况 发 生 ， 系 统 的 重启 过 程 应 当 将 这 些 更 新 重 
新 作用 到 数据 库 上 ， 通 过 检查 日 志 中 的 相关 入 口 点 ， 系 统 可 找到 那些 已 经 被 成 功 写 人 数据 库 的 
值 。 这 说 明 在 COMMIT 过 程 完成 之 前 ， 日 志 必 须 物理 地 写 出 ， 此 即日 志 先 写 原则 (write- ahead 
log nule) 。 因 此 ， 重 启 过 程 将 对 那些 成 功 提 交 但 在 系统 崩溃 前 物理 上 未 更 新 数据 库 的 事务 进行 恢 
复 ， 由 此 可 见 事务 实际 上 也 是 恢复 单元 。 注 意 : 下 一 章 将 提 到 ， 事 务 也 是 并 发 (concurrency) 单 
pL 

接 下 来 我 们 讨论 实现 上 的 一 些 问题。 直观 看 来 ， 如 果 能 够 保证 下 面 的 两 个 前 提 ， 很 明显 实现 
将 是 最 简单 的 : 

a 在 事务 提交 之 前 ， 对 于 数据 库 的 更 新 保存 在 内 存 的 缓冲 区 中 并 且 没 有 物理 写 人 磁盘 。 这 


名 那 不 是 一 个 显 式 的 用 户 动作 。( 实 际 上 ， 如 果 事 务 是 可 以 艇 套 的 ， 则 一 个 提交 的 更 新 可 能 会 被 系统 隐 式 地 撤消 ， 
但 是 我 们 将 这 种 情况 留 到 以 后 讨论 。) 
名 ”缓冲 区 是 内 存 中 的 分 段 运输 区 域 ， 用 来 存储 将 在 物理 数据 库 和 执行 的 事务 之 间 交 换 的 数据 。 
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样 ， 如 果 一 个 事务 不 成 功 地 终止 ， 不 需要 进行 撤消 磁盘 更 新 的 操作 。 
s 将 数据 库 更 新 物理 地 写 人 到 磁盘 是 事务 提交 过 程 的 一 部 分 。 如 果 系 统 随后 崩溃 ， 磁 盘 的 更 
新 可 以 不 需要 重 做 。 

但 是 ， 存 实际 的 实现 中 ,以 上 的 两 个 前 提 一 般 都 不 能 保证 。 首 先 ， 内 存 的 缓冲 区 可 能 不 是 足 
够 大 ， 所 以 对 于 某 个 事务 4 的 更 新 可 能 需要 在 4 提交 之 前 完成 这 可 能 是 为 了 给 另 -个 事务 有 
腾 出 空间 (这 称 为 8 窃取 4 的 空间 ) 。 其 次 ， 在 事务 提交 的 时 候 强制 地 执行 物理 写 操作 十 能 是 低 
效 的 ; 例如 在 100 个 连续 事务 更 新 闻 一 个 数据 库 对 象 的 情况 下 ， 强 制 写 100 次 ， 而 实际 上 -- 次 就 
足够 了 。 正 因为 以 上 的 这 些 原因 ， 实 际 中 的 事务 管理 器 常 采用 一 种 称 为 窃取 /不 强制 〈steal/no- 
force) 的 策略 ， 它 使 实现 变 得 复杂 。 这 方面 进一步 的 内 容 超出 了 本 书 的 范围 。 

前 面 我 们 已 经 提 到 日 志 先 写 原则 ， 它 要 求 日 志 的 物理 写 必 须 在 COMMIT 操作 完成 之 前 完成 。 
这 无 疑 是 正确 的 ， 这 里 给 出 它 的 准确 描述 : 

a 在 给 定 的 数据 库 更 新 物理 地 写 人 数据 库 之 前 ， 它 对 应 的 日 志 记录 必须 物理 地 写 人 日 志 。 

一 个 事务 的 所 有 其 他 日 志 记录 都 必须 在 它 的 COMMIT 日 志 记录 物理 写 人 日 志 之 前 物理 地 
写 人 日 志 。 

只 有 在 一 个 事务 的 COMMIT 日 志 记录 物理 地 写 人 日 志 之 后 ， 该 事务 的 COMMIT 过 程 才能 
结束 .9 

ACID 性 质 

根据 参考 文献 [15. 14] ， 我 们 对 这 一 节 和 上 一 节 的 内 容 作 一 个 小 结 : 事务 拥有 (被 假设 拥 
有 ) 以 下 的 “ACID 特性 ”: 原子 性 〈atomicity ) 、 正 确 性 (correctness )”、 隔 离 性 (isolation) 
和 持久 性 《durability ) 。 

s 原子 性 : 事务 是 原子 的 ， 要么 都 做 ， 要 么 都 不 做 。 

正确 性 : 事务 将 数据 库 从 一 个 正确 状态 转变 为 另 一 个 正确 状态 ,但 在 事务 内 无 须 保 证 正确 

性 。 

s 隔离 性 事务 相互 隔离 。 也 就 是 说 ， 即 使 通常 多 个 事务 并 发 执行 ， 任 一 事务 的 更 新 操作 对 
其 他 事务 都 是 不 可 见 的 ， 直 到 其 成 功 提交 。 另 一 种 说 法 为 ， 对 任意 两 个 不 同 的 事务 4 和 
五，4 可 在 8 提交 后 看 到 其 更 新 ,， 或 B 可 在 4 提交 后 看 到 其 更 新 ， 但 是 两 者 不 可 能 同时 发 
生 。 

s 持久 性 : 一 旦 事务 成 功 提交 ， 即 使 系统 裔 省， 其 对 数据 库 的 更 新 也 将 永久 有 效 。 

关于 这 些 特 性 ， 在 下 一 章 中 将 会 有 大 量 的 讨论 。 


15.4 系统 恢复 


系统 必须 不 仅 能 从 局 部 故障 〈 如 单个 事务 中 的 溢出 异常 ) 中 恢复 ， 而 且 能 从 全 局 ( global) 
故障 〈 如 断 电 ) 中 恢复 。 顾 名 思 义 ， 局 部 故障 只 影响 发 生 故 障 的 事务 ， 这 已 在 15. 2 节 和 15. 3 节 
讨论 过 了 ; 而 全 局 故障 影响 正在 运行 的 所 有 事务 ， 具有 系统 范围 的 含义 。 本 节 及 下 一 节 将 对 全 局 
故障 的 恢复 进行 简单 的 讨论 ， 全 局 故障 涉及 两 类 : 

a 系统 故障 (如 断 电 ) : 影响 正在 运行 的 所 有 事务 ， 但 不 破坏 数据 库 ， 有 时 也 称 作 软 故障 ; 

s 介质 故障 (如 磁盘 的 磁头 磁 撞 ) ; 将 破坏 数据 库 或 部 分 数据 库 ， 并 影响 正 存 取 这 部 分 数据 

的 所 有 事务 ， 有 时 也 称 作 硬 故障 。 

发 生 系统 故障 时 ， 主 存 内容 ， 尤 其 是 数据 库 缓 冲 区 中 的 内 容 都 会 丢失 。 此 时 正在 运行 的 事务 

的 状态 都 不 得 而 知 ， 这 样 的 事务 将 不 可 能 成 功 结束 ， 因 此 必须 在 系统 重启 时 撤消 (undone) ， 即 








”有 些 数据 库 系 统 在 过 到 COMMIT 日 志 记录 时 马上 强制 将 它 写 人 磁盘 ， 另 -- 些 系统 直到 缓冲 区 满 的 时 候 才 将 其 中 
的 日 志 记 录 写 人 磁盘 。 后 一 种 策略 因为 事实 上 造成 几 个 事务 同时 提交 的 情况 ， 也 被 称 为 组 提交 (group com- 
mit) ， 它 减少 了 总 的 VO 数 ， 但 也 使 得 一 些 事务 延迟 终止。 

”在 以 前 绝 大 部 分 的 文献 中 都 是 使 用 一 致 性 〈consistency) (例如 在 参考 文献 [15. 14] 中 ) ， 但 是 这 里 我 们 使 用 正 
确 性 (corectness) ， 因 为 一 致 性 并 不 意味 着 正确 性 。 
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回 滚 、 而 且 ， 在 重启 时 重 做 (redo) 那些 在 系统 崩溃 前 成 功 结束 但 未 将 更 新 从 缓冲 区 写 人 物理 数 
据 库 的 事务 也 是 非常 必要 的 。 

那么 系统 在 重启 时 怎么 知道 哪些 事务 该 撤消 哪些 事务 该 重 做 呢 ? 在 一 定 的 预定 时 间 邮 隔 
(通常 在 预定 数量 的 登记 项 写 人 日 志 时 ) 内 ， 系 统 自动 设置 检查 点 。 设 置 检查 点 涉及 (a) 将 数 
据 库 缓 冲 区 的 内 容 强制 写 人 物理 数据 库 ; (b) 将 一 特殊 的 检查 点 记录 (checkpoint record) 与 人 
物理 日 志 。 检 查 点 记录 包含 设置 检查 点 时 正在 运行 的 事务 列表 。 要 理解 如 何 使 用 该 信息 ， 可 参看 
图 15-3， 具体 说 明 如 下 (在 图 中 时 间 从 左 向 右 流动 ) : 

sm 系统 故障 在 #f 时 发 生 ; 

ma 术 之 前 最 近 的 检查 点 在 tc 时 设置 ; 

s 7T1 类 的 事务 在 tc 前 成 功 结束 ; 

m 72 类 的 事务 在 tc 前 开始 ,在 tc 后 前 成 功 结 








束 ; 
s 73 类 的 事务 在 tc 前 开始 ,但 直到 # 时 尚未 结 
束 ， 








， 检查 点 于: 
em 74 类 的 事务 在 tc 后 开始 ， 在 # 前 成 功 结束 ; (时 间 tc) CN 
m 75 类 的 事务 在 tc 后 开始 , 但 直到 # 时 尚未 结 
束 图 15-3 五 类 事务 


显然 系统 重启 时 ，73 和 75 类 的 事务 必须 撤消 ，72 和 74 类 的 事务 必须 重 做 。 但 重启 过 程 并 
不 涉及 71 类 的 事务 ， 因 为 它们 的 更 新 在 tc 设置 检查 点 时 已 强制 写 人 数据 库 中 。 对 于 那些 在 #f 之 
前 未 成 功 完成 〈 即 已 ROLLBACK) 的 事务 ， 重 启 过 程 也 不 涉及 (为什么?) 。 
因此 ， 在 重启 时 系统 首先 按照 如 下 的 步骤 标识 72 ~ 7T5 类 的 事务 : 
1) 首先 设置 两 个 事务 列表 : UNDO 列表 和 REDO 列表 。 
2) 将 UNDO 列表 设置 为 最 近 一 个 检查 点 记录 所 包含 的 所 有 事务 的 列表 ，REDO 列表 设置 
为 空 。 
3) 从 检查 点 记录 开始 ， 对 日 志 进行 正 向 扫描 。 
4) 如 果 遇 到 事务 了 的 BEGIN TRANSACTION 日 志 登 记 项 ， 则 将 T 加 入 UNDO 列表 。 
5) 如 果 遇 到 事务 了 的 COMMIT 日 志 登 记 项 ， 则 将 了 从 UNDO 列表 移 到 REDO 列表 。 
6) 当日 志 扫描 结束 时 ，UNDO 列表 和 REDO 列表 分 别 标 识 了 73 和 25 类 的 事务 以 及 72 和 
74 类 的 事务 。 

现在 系统 将 反 向 扫描 日 志 ， 撤 消 UNDO 列表 中 的 事务 ; 接着 再 正 向 扫描 ， 重 做 REDO 列表 
中 的 事务 。 注 意 ; 通过 撤消 操作 将 数据 库 恢 复 到 一 致 性 状态 有 时 称 作 反 向 恢复 (backward recov- 
ery) ; 通过 重 做 操作 将 数据 库 恢 复 到 一 致 性 状态 有 时 称 作 正 向 恢复 forward recovery ) 。 

最 后 ， 当 所 有 的 恢复 工作 都 完成 时 ， 系 统 就 可 以 接受 新 的 处 理 请 求 了 。 

ARIES 

前 面 描述 的 系统 恢复 过 程 是 经 过 了 很 大 简化 的 。 比如 它 说 撤消 操作 总 是 在 重 做 操作 之 前 完 
成 。 早 期 的 系统 确实 是 这 样 实现 的 ， 但 是 出 于 效率 的 考虑 ， 现 在 流行 的 系统 一 般 不 再 使 用 这 种 策 
略 。 事 实 上 ,今天 绝 大 多 数 系统 都 使 用 一 种 叫做 ARIESS [15.20] 的 算法 或 者 和 它 非常 近似 的 
某 种 策略 ， 而 其 中 恰恰 是 先 执行 重 做 操作 。ARIES 算法 的 运行 可 以 分 成 三 个 主要 的 阶段 ; 

1) 分 析 : 设置 两 个 事务 列表 : UNDO 列表 和 REDO 列表 。 

2) 重 做 :从 在 分 析 阶 段 确定 的 某 个 特定 的 位 置 开 始 ， 将 数据 库 恢复 到 它 贿 省 时 的 状态 。 

3) 撤消 : 撤消 那些 提交 失败 的 事务 对 数据 库 的 更 新 。 

注意 : 这 里 的 “ 重 做 先 于 撤消 ”意味 着 那些 提交 失败 的 事务 也 先 被 重 做 ， 然 后 再 被 撤消 。 





GQ 在 其 他 问题 的 讨论 中 ， 我 们 总 是 假设 恢复 是 可 行 的 ! 不 并 发 执行 的 事务 显然 是 可 恢复 的 ; 但 是 ， 并 发 执行 引入 
了 某 些 复杂 的 因素 ， 我 们 必须 仔细 设计 使 它们 不 破坏 可 恢复 性 。 在 下 一 章 我 们 将 继续 讨论 这 个 问题 。 
人 ARIES 是 “Algorithms for Recovery and Isolation Exploiting Semantics” 的 简写 。 
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因此 ARIES 的 重 做 过 程 常 被 称 为 再 现 历史 (repeating history) [15. 21]。ARIES 在 撤消 阶段 的 执 
行 中 会 书写 日 志 ， 如 果 系 统 在 重启 过 程 (restart procedure) 中 再 次 崩溃 (尽管 几乎 不 可 能 发 生 ) ， 
那么 在 下 一 次 重启 时 这 次 已 经 完成 的 撤消 动作 将 不 再 重复 执行 。 


15. 5 介质 恢复 


注意 : 介质 故障 恢复 与 事务 故障 和 系统 故障 的 恢复 有 些 不 同 ,介绍 它 是 为 了 完备 恢复 的 
内 容 。 

重复 15.4 节 的 内 容 ， 介 质 故 障 将 破坏 部 分 数据 库 ， 如 磁盘 的 磁头 碰撞 ， 磁 盘 控 制 器 故障 。 
介质 故障 恢复 需 利用 转 储 的 后 备 副本 重 载 数据 库 ， 然 后 利用 日 志 (联机 和 和 脱 机 日 志 ) 对 转 储 后 
备 副 本 以 来 完成 的 所 有 事务 进行 重 做 处 理 。 没 有 必要 对 发 生 故 障 时 正在 运行 的 事务 进行 撤消 处 
理 ， 因 为 这 些 事 务 的 所 有 更 新 已 “撤消 ”( 实 际 上 是 丢失 ) 了 。 

要 能 执行 介质 故障 恢复 ， 系 统 必 须 具 有 转 储 /重建 《dump/restore) 或 印 载 / 重 载 (unload/re- 
ioad) 实用 例 程 。 转 储 即 制作 后 备 副 本 ， 这 些 副本 可 保存 在 磁带 或 其 他 用 于 存档 的 介质 上 上， 不 必 
保存 在 直接 存 取 介 质 上 。 重 建 即 从 指定 的 后 备 副本 重 构 数据 库 。 


15.6 两 阶段 提交 


注意 : 可 能 你 第 一 次 阅读 这 一 节 时 希望 略 过 它 。 

两 阶段 提交 (two-phase commit) 是 提交 / 回 滚 概念 的 又 一 重要 内 容 ， 当 一 个 事务 与 几 个 独 
立 的 “资源 管理 器 ”( 每 个 管理 器 管理 自己 的 可 恢复 资源 集合 ， 并 维护 自己 的 恢复 日 志 ”) 相互 
作用 时 ， 两 阶段 提交 尤为 重要 。 举 个 例子 ， 若 一 事务 运行 在 BM 大 型 机 上 ， 该 事务 对 IMS 数据 
库 和 DB2 数据 库 进行 更 新 (这 样 的 事务 是 合法 的 ) 。 如 果 该 事务 成 功 结束 ， 其 对 IMS 和 DB2 数 
据 的 所 有 更 新 操作 都 必须 被 提交 ; 如 果 失 败 ， 所 有 的 更 新 操作 必须 回 滚 。 换 名 话说， 不 可 能 出 现 
对 IMS 数据 的 更 新 操作 被 提交 同时 对 DB2 数据 的 更 新 操作 被 回 滚 的 情形 ， 反 之 亦 然 ， 否 则 事务 
就 不 是 原子 的 (全 部 做 或 者 全 部 不 做 ) 。 

由 此 可 见 对 该 事务 ， 系 统 要 求 IMS 执行 COMMIT 而 要 求 DB2 执行 ROLLBACK 是 没有 意义 
的 ， 即 使 系统 向 两 者 发 出 相同 的 指示 ， 系 统 也 可 能 在 两 者 COMMIT 间或 ROLLBACK 间 骨 省 ， 
造成 不 可 预料 的 结果 。 因 此 ， 事 务 需 发 出 一 个 系统 范围 (system- wide) 的 COMMIT (或 ROLL- 
BACK) 。 该 “全 局 ”的 COMMIT 或 ROLLBACK 由 一 称 作协 调 者 (coordinator) 的 系统 部 件 控 
制 ， 协 调 者 保证 两 个 资源 管理 器 ( 即 例 中 的 IMS 和 DB2) 对 它们 各 自 的 更 新 操作 所 做 的 提交 或 
回 滚 是 一 致 的 ， 即 使 系统 在 事务 运行 过 程 中 发 生 了 故障 。 正 是 两 阶段 提交 协议 使 协调 者 提供 了 这 
样 的 保证 。 

下 面具 体 介绍 两 阶段 提交 协议 的 工作 原理 。 假 设 事务 已 成 功 完成 数据 处 理 过 程 ， 它 将 发 出 系 
统 范围 的 COMMIT 指示 ， 协 调 者 在 收 到 COMMIT 请 求 后 将 进入 如 下 两 个 阶段 的 处 理 过 程 : 

a 准备 : 首先 ， 协 调 者 指示 所 有 的 资源 管理 器 做 好 准备 ， 这 意味 着 每 个 参与 者 ， 即 资源 管理 

器 ， 必 须 将 事务 对 本 地 资源 的 所 有 操作 的 日 志 登 记 选 项 强制 写 到 物理 日 志 ( 即 写 人 稳定 
的 存储 设备 ;这样 ， 资 源 管理 器 将 具有 其 代表 事务 在 本 地 工作 的 永久 记录 ， 在 必要 时 可 用 
于 提交 和 回 滚 ) 。 假 设 已 成 功 地 强制 写 出 日 志 ， 资 源 管理 器 将 向 协调 者 发 出 “准备 好 ”的 
响应 ， 否 则 发 出 “未 准备 好 ”的 响应 。 

5 提交 : 当 协 调 者 收 到 来 自 所 有 参与 者 的 响应 时 ， 它 将 在 自己 的 日 志 中 登记 其 关于 事务 的 决 

定 。 如 果 所 有 的 响应 都 是 “准备 好 ”， 其 决定 就 是 “提交 ”; 如 果 有 一 个 响应 是 “未 准备 
好 ”， 其 决定 就 是 “ 回 滚 " 。 接 着 协调 者 将 向 所 有 的 参与 者 通知 这 个 决定 ， 每 个 参与 者 将 
根据 指示 对 事务 进行 本 地 的 提交 或 回 滚 。 注 意 : 每 个 参与 者 必须 在 第 二 阶段 完成 协调 者 的 
指示 ， 这 就 是 协议 ; 正 是 协调 者 日 志 中 的 事务 决定 的 记录 项 标识 了 从 阶段 ! 到 阶段 2 的 





外 ”在 分 布 式 的 数据 库 环境 中 ， 这 一 点 尤其 重要 ， 其 详细 地 原因 将 在 第 21 章 讨论 。 
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如 果 系 统 在 整个 处 理 过 程 中 出 现 了 故障 ， 重 启 过 程 将 在 协调 者 日 志 中 查找 事务 决定 的 记录 
项 。 如 果 找 到 该 记录 ， 两 阶段 提交 过 程 将 从 其 被 中 止 的 那 一 点 继续 执行 ; 如果 未 找到 ， 系 统 将 假 
设 事务 决定 是 “ 回 滚 ”， 并 相应 地 完成 回 滚 。 注 意 : 如 果 协 调 者 和 参与 者 运行 在 不 同 的 计算 机 
(如 分 布 式 系统 ) 上 ， 则 协调 者 发 生 故障 时 ， 参 与 者 可 能 需 等 待 很 长 一 段 时 间 才 能 收 到 协调 者 的 
决定 。 只 要 它 一 直 在 等 待 ， 则 事务 由 参与 者 执行 的 那 部 分 更 新 操作 对 其 他 事务 是 不 可 见 的 ， 即 将 
被 加 锁 ( 见 第 16 章 的 讨论 ) 。 

数据 通信 管理 器 (DC 管理 器 一 一 参看 第 2 章 ) 也 被 看 做 资源 管理 器 ， 这 就 是 说 ， 消 息 就 像 
数据 库 一 样 也 被 看 做 可 恢复 的 资源 ，DC 管理 器 需 能 参与 两 阶段 提交 过 程 。 有 关 两 阶段 提交 的 更 
权威 的 论述 可 参看 参考 文献 [15. 12] 。 


15. 7 保存 点 


我 们 已 经 知道 在 通常 情况 下 一 个 事务 是 不 能 被 其 他 事务 幅 套 的 ; 但 是 一 个 事务 是 否 可 以 分 成 
多 个 子 事务 呢 ? 在 一 定 的 限定 条 件 下 ， 回 答 是 肯定 的 。 在 一 个 事务 执行 的 过 程 中 建立 中 间 的 保存 
点 是 可 能 的 ; 随后 ， 根 据 需 要 ， 事 务 可 以 回 滚 到 先前 建立 的 某 个 保存 点 ， 而 不 需要 同 滚 到 最 开始 
的 状态 。 事 实 上 ， 在 一 些 早期 的 系统 ， 包 括 Ingres (商业 产品 ， 并 非 原型 系统 ) 和 System R 中 
已 经 包含 保存 点 机 制 和 相应 的 语句 ; 这 种 语句 后 来 被 加 入 到 SQL99 标准 中 。 需 要 注意 的 是 ， 建 
立 一 个 保存 点 和 执行 一 个 COMMIT 是 不 同 的 ; 在 事务 成 功 地 执行 COMMIT 之 前 ， 事 务 对 数据 库 
的 更 新 对 于 其 他 的 事务 一 直 是 不 可 见 的 。 在 接 下 来 的 15. 8 节 中 将 会 有 更 深入 的 讨论 。 


15.8 SQL 对 事务 的 支持 


SQL 对 事务 的 支持 以 及 对 基于 事务 的 恢复 的 支持 都 遵循 前 面 的 概念 。 首 先 ， 绝 大 部 分 SQL 
语句 是 保证 原子 的 执行 的 《唯一 的 例外 是 CALL 和 RETURN ) 。 其 次 ， 正 如 第 4 章 中 所 说 ，SQL 
对 BEGIN TRANSACTION 、COMMIT 和 ROLLBACK 都 有 直接 的 支持 语句 ， 它 们 分 别 是 START 
TRANSACTION 、COMMIT WORK 和 ROLLBACK WORK。START TRANSACTION 的 语法 如 下 : 





START TRANSACTION <option commalist> } 


其 中 < option commalist > 表示 存 取 模式 或 者 隔离 级 别 ， 或 者 两 者 都 有 (一 个 和 诊断 区 域 大 小 

相关 的 第 三 方 的 选项 ， 超 出 了 本 书 的 范围 ) : 

s 存 取 模式 可 以 是 READ ONLY 或 者 READ WRITE。 除 非 指 定 隔离 级 别 是 READ UNCOM- 
MITTED， 默 认 的 存 取 模式 是 READ WRITE。 而 如 果 指 定 了 存 取 模 式 READ WRITE， 那 
么 隔离 级 别 就 不 能 是 READ UNCOMMITTED。 

s 语法 ISOLATION LEVEL < isolation > 定义 了 隔离 级 别 ， 选 项 < isolation > 可 以 是 READ 
UNCOMMITTED ，READ COMMITTED ，REPEATABLE READ 或 者 SERIALIZABLE。 更 
详细 的 在 第 16 章 介绍 。 

COMMIT 和 ROLLBACK 的 语句 如 下 ， 


COMMIT [ WORK ] [ AND [ NO ] CHAIN ] ; 
ROLLBACK [ WORK ] { AND [ NO ] CHAIN ] ; 


WORK 关键 字 在 这 里 只 是 噪音 ， 并 没有 任何 作用 。AND CHAIN 选项 表示 在 COMMIT 之 后 自动 
执行 一 个 前 一 个 相同 的 < option commalist > 选项 的 START TRANSACTION; AND NO CHAIN 是 
默认 的 选项 。COMMIT 和 ROLLBACK 语句 的 执行 自动 使 每 个 打开 的 游标 CLOSE (这 就 引起 了 
所 有 数据 库 定位 的 丢失 ) ， 唯 一 的 例外 是 COMMIT 不 CLOSE 在 游标 声明 时 使 用 WITH HOLD 选 
项 的 游标 。 注 意 : 这 一 点 在 第 4 章 没 有 涉及 ，WITH HOLD 是 游标 声明 时 的 一 个 选项 ， 声 明 为 
WITH HOLD 的 游标 在 事务 COMMIT 时 继续 保持 其 打开 和 定位 状态 ， 这样 下 一 个 FETCH 操作 将 
按 顺 序 将 游标 指向 下 一 个 元 组 ， 因此， 原先 在 下 一 个 OPEN 时 所 需要 的 复杂 的 重 定位 代码 就 不 再 
需要 了 ， 这 样 就 避免 了 否则 重新 打开 并 定位 的 繁复 的 代码 。 
SQL 还 支持 保存 点 。 语 名 是 : 
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SAVEPOINT <savepoint name> } 


它 根据 用 户 指定 的 名 字 (被 事务 视 为 本 地 的 ) 创建 一 个 保存 点 。 而 语句 


ROLLBACK TO <savepoint name> ;} 


撤消 从 指定 保存 点 开始 的 所 有 更 新 。 语 句 


RELEASE <savepoint name> ;} 


删除 指定 的 保存 点 ， 表 示 以 后 将 不 再 允许 回 滚 到 该 保存 点 。 当 事务 终止 时 ， 所 有 的 保存 点 都 被 自 
动 的 删除 - 


15.9 小 结 


本 章 对 事务 管理 做 了 简单 的 介绍 ， 事 务 是 逻辑 工作 单元 ， 也 是 恢复 单元 (同时 也 是 并 发 单 
元 ， 参 见 第 16 章 ) 。 事 务 具 有 ACID 性 质 : 原子 性 、 正 确 性 (更 经 常 被 称 为 一 致 性 ) 、 隔 离 性 和 
持久 性 。 事 务 管理 监控 事务 的 执行 ， 以 保证 事务 具有 上 述 的 重要 人 性质。 事实 上 系统 的 目的 就 是 保 
证 事务 的 可 靠 执行 。 

事务 以 BEGIN TRANSACTION 开始 ， 以 COMMIT 或 ROLLBACK 结束 。COMMIT 建立 了 一 
个 提交 点 (更 新 永久 驻 留 )，ROLLBACK 将 数据 库 回 滚 到 上 一 提交 点 (更 新 被 撤消 ) 。 如 果 事 务 
未 到 达 预 期 的 终点 ， 系 统 将 强制 ROLLBACK (事务 恢复 ) 。 为 了 能 撤消 (或 重 做 ) 对 数据 库 的 
更 新 操作 ， 系 统 必须 维护 恢复 日 志 ， 而 有 事务 的 日 志 记 录 必 须 在 该 事务 的 COMMIT 操作 完成 之 
前 物理 地 写 回 到 日 志 (日 志 先 写 原 则 )。 

系统 还 必须 保证 崩溃 时 事务 的 ACID 性 质 ， 因 此 系统 必须 (a) 重 做 崩溃 前 成 功 完成 的 事务 
的 所 有 工作 ; (b) 撤消 崩溃 前 已 启动 但 仍 未 成 功 完成 的 事务 的 所 有 工作 。 系 统 恢复 作为 系统 重 
启 过 程 的 一 部 分 (有 时 叫做 重启 /恢复 过 程 ) ， 通 过 检查 最 近 设 置 的 检查 点 记录 决定 需 重 做 和 撤 
消 的 事务 ， 检 查 点 记录 在 一 定 的 预定 的 时 间 间 隔 写 人 日 志 。 

系统 还 提供 介质 恢复 ， 通 过 先 从 转 储 的 后 备 副 本 恢复 数据 库 ， 再 利用 日 志 重 做 转 储 以 来 所 做 
的 工作 。 系 统 要 支持 介质 恢复 必须 具备 转 储 /重建 实用 例 程 。 

系统 如 果 要 使 事务 与 多 个 不 同 的 资源 管理 器 (如 两 个 不 同 的 DBMS ， 或 一 个 DBMS 和 一 个 
DC 管理 器 ) 进行 交互 ， 同 时 又 要 维护 事务 的 原子 性 ， 就 必须 使 用 两 阶段 提交 协议 。 这 两 个 阶段 
是 : (a) 准备 阶段 ， 协 调 者 指示 所 有 的 参与 者 做 好 提交 准备 ; (b) 提交 阶段 ， 在 收 到 所 有 参与 
者 的 响应 后 ， 协 调 者 作出 最 终 决定 并 指示 参与 者 提交 (或 回 滚 ) 。 

本 章 还 包含 了 对 保存 点 的 一 个 简要 介绍 和 SQL 对 恢复 支持 的 综述 ; 特别 是 ，SQL 提供 显 式 
的 START TRANSACTION 语句 ， 在 这 个 语句 中 用 户 可 指定 事务 的 存 取 模 式 和 隔离 级 别 。 

最 后 ， 本 章 的 讨论 都 默认 在 应 用 程序 环境 下 ， 但 是 所 有 的 概念 也 适用 于 最 终 用 户 环 境 。 举 个 
例子 ，SQL 产品 通常 允许 用 户 从 终端 交互 地 输入 SQL 语句 ， 每 个 交互 式 语 句 将 作为 一 个 事务 ， 
系统 在 执行 了 该 SQL 语 名 后， 将 自动 代表 用 户 发 出 COMMIT 命令 。 但 是 ， 有 些 系统 允许 用 户 禁 
止 自动 COMMIT 功能 ， 这 样 就 可 执行 一 系列 的 SQL 语句 (以 显 式 的 COMMIT 和 ROLLBACK 结 
束 ) 作为 一 个 单一 事务 。 这 种 方式 可 能 使 数据 库 的 一 部 分 被 锁 住 ， 其 他 用 户 将 无 法 访问 ， 而 且 
可 能 造成 死 锁 ， 这 些 将 在 第 16 章 讨论 。 


15.1 系统 不 允许 事务 只 提交 对 某 些 数 据 库 或 变量 所 做 的 更 新 ， 而 不 同时 提交 对 其 他 数据 库 或 变量 所 做 的 
更 新 。 为 什么 ? 

15.2 ”事务 不 能 艇 套 。 为 什么 ? . 

15.3 ”说 明日 志 先 写 规则 的 内 容 ， 为 什么 该 规则 是 必要 的 ? 

15.4 ”在 下 列 情况 下 ， 恢 复 的 含义 分 别 是 什么 ? 
a COMMIT 时 将 缓冲 区 的 内 容 强 制 写 人 数据 库 。 
b. 在 COMMIT 之 前 缓冲 区 的 内 容 不 物理 地 写 人 数据 库 。 
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15.5 ”说明 一 下 两 阶段 提交 协议 的 内 容 ， 并 讨论 在 每 个 阶段 (a) 协调 者 和 (b) 参与 者 分 别 发 生 故 障 时 的 
含义 。 

15.6 ”利用 供应 商 和 零件 数据 库 ， 写 一 个 SQL 应 用 程序 ， 按 零件 编号 顺序 查询 并 显示 所 有 的 零件 ， 每 十 个 
记录 重新 开始 一 个 新 的 事务 ， 并 且 要 求 将 第 十 个 记录 删除 。 假 设 从 零件 表 到 供应 表 的 DELETE 外 码 
规则 为 CASCADE (也 就 是 说 ， 该 练习 中 可 忽略 对 供应 表 的 操作 ) 。 注 : 可 使 用 SQL 游标 机 制 。 
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嚼 四 部 分 下 和 姑 党 理 


Hector Garcia- Molina and Kenneth Salem:” Sagas,” Proc. 1987 ACM SIGMOD Int. Conf on Manage- 
ment of Data, San Francisco, Calif. ( May 1987 ) . 

本 章 所 讨论 的 事务 都 默认 为 在 很 短 的 时 间 内 执行 完毕 (毫秒 甚至 微 秒 ) 。 如 果 一 个 事务 持续 

较 长 的 时 间 (小 时 、 天 或 周 ) ， 那 么 (a) 如 果 其 必须 回 滚 ， 则 需 撤 消 大 量 的 工作 ; (b) 即使 其 
最 终 成 功 结束 ， 在 相当 长 的 时 间 内 其 将 占用 大 量 的 系统 资源 ( 如 数据 库 数 据 等 ) ， 这 样 将 阻止 其 
他 用 户 的 使 用 (参看 第 16 章 ) 。 不 幸 的 是 ， 许 多 “现实 世界 ”的 事务 持续 时 间 都 比较 长 ， 尤 其 
在 像 硬件 和 软件 工程 这 样 的 新 的 应 用 领域 。Sagas 是 对 上 述 问题 的 解决 方案 ，saga 是 一 个 短 事务 
(通常 意义 上 ) 序列 ， 并且 系统 保证 要 么 (a) 该 序列 中 的 所 有 事务 都 成 功 执行 ， 要 么 〈b) 执 
行 特定 的 补偿 事务 【15. 17] 消除 在 整个 未 完成 的 saga 中 成 功 执行 了 的 事务 的 影响 ， 使 得 saga 
就 像 从 未 执行 过 一 样 。 举 个 例子 ， 在 银行 系统 可 能 存在 这 样 的 事务 ,“ 向 账户 A 增加 100 美元 ”， 
补偿 事务 显然 为 “从 账户 A 中 减 去 100 美元 ”"。 对 COMMIT 语句 的 扩展 允许 用 户 在 必须 消除 已 
完成 的 事务 的 影响 的 情况 下 通知 系统 运行 补偿 事务 。 注 : 理想 地 认为 补偿 事务 从 不 回 滚 。 
James Gray “Notes on Data Base Operating Systems,” in R. Bayer,R. M. Graham , and G. Seegmuller 
(eds. ) ,Operating Systems:An Advanced Course ( Springer- Verlag Lecture Notes in Computer Science 
60). New York, N.Y. : Springer-Verlag( 1978 ) . Also available as IBM Research Report RJ 2188( Feb- 
ruary 1978). 

这 是 最 早 的 也 必定 是 最 易 获 得 的 有 关 事务 管理 的 资料 。 其 对 两 阶段 提交 协议 最 早 进行 了 概 
要 描述 ， 显 然 其 讨论 不 及 最 新 的 参考 文献 [15. 12] 那样 深入 广泛 ， 但 仍 推荐 给 读者 。 

Jim Gray:“ The Transaction Concept: Virtues and Limitations,” Proc. 7th Int. Conf on Very Large Data 
Bases ,Cannes , France( September 1981 ) . 

简明 扼要 地 讲述 了 事务 相关 的 概念 、 问 题 ， 包 括 大 量 的 实现 。 

Jim Gray and Andreas Reuter: Transaction Processing: Concepts and Techniques. San Mateo , Calif. : 
Morgan Kaufmann( 1993 ) . 

这 部 著作 堪 称 计算 机 科学 著作 中 的 经 典 。 虽 然 读 来 较为 费时 ， 但 作者 对 各 主题 阑 述 得 清晰 
明确 ， 即 使 最 枯燥 的 部 分 也 令 人 爱不释手 。 在 序言 中 ， 作 者 表明 他 们 的 目的 是 “帮助 解决 实际 
问题 ” ， 这 本 书 “ 切 合 实际 ， 详 细 描 述 了 各 种 基本 的 事务 情形 ”， 并 且 包 含 “ 大 量 的 代码 段 、 基 
本 算法 以 及 数据 结构 ”， 但 并 不 是 “一 本 百科 全 书 ， 面 面 俱 到 ”。 尽 管 正 如 其 最 后 声明 的 ， 这 本 
书 并 不 是 包罗 万 象 ， 但 仍 是 一 部 堪 称 标准 的 著作 。 强 力 推荐 。 

Jim Gray et al. :“ The Recovery Manager of the System R Data Manager,” ACM Comp. Surv. 13 ,No.2 
(June 1981 ) . 

参考 文献 [15. 13] 和 [15. 19] 都 与 System R (是 数据 库 领 域 的 某 些 方面 的 先锋 ) 的 恢复 
机 制 相关 。 参 考 文献 [15. 13] 给 出 了 整个 恢复 子 系 统 的 全 摇 ， 参考 文献 [15. 19] 详细 描述 了 
一 种 特别 的 处 理 机 制 一 一 影子 页 机 制 。 

Theo Hirder and Andreas Reuter: “ Principles of Transaction- Oriented Database Recovery,” ACM 
Comp. Surv. 15, No. 4( December 1983). 

ACID 特性 最 早 在 这 篇 文章 中 提出 ， 文 章 对 恢复 原理 作 了 仔细 的 闸 述 ， 清 晰 易 懂 ， 同 时 还 
给 出 了 用 统一 方式 描述 大 量 的 恢复 模式 以 及 日 志 技术 的 术语 框架 ， 并 依据 这 一 框架 对 已 存在 的 
大 量 系统 进行 了 分 类 和 描述 。 

文章 还 包括 一 些 有 趣 的 经 验 性 数据 ， 包 括 在 一 个 典型 的 大 系统 中 三 类 故障 (局 部 、 系 统 、 
介质 ) 的 发 生 频 率 和 可 接受 的 恢复 次 数 。 如 下 表 所 示 : 


局 部 10 ~ 100 次 /min | 与 事务 执行 时 间 相同 
几 分 钟 
1 ~2 小 时 













Theo Hirder and Kurt Rothermel: “Concepts for Transaction Recovery in Nested Transactions 
Proc. 1987 ACM SIGMOD int Conf. on Management of Data, San Francisco, Calif. (May 1987 ) . 
它 提出 了 这 样 一 种 方案 : 事务 可 以 包含 低层 (lower-level) 的 子 事务 ( 子 事务 同样 可 以 包 
含 更 低层 的 子 事务 ， 如 此 等 等 ) 。 一 个 不 是 任何 事务 的 子 事务 的 事务 被 称 为 顶层 事务 ， 项 层 事 
务 满足 ACID 特性 ; 但 是 ， 一 个 子 事务 〈 非 顶层 事务 ) 则 只 要 求 满足 原子 性 和 隔离 性 。 更 详细 





[15.16] 


[15. 17] 


[15. 18 j 


[15.19] 


{15. 20] 


[15.21] 
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的 讨论 在 第 16 章 的 16. 10 节 。 

Henry F. Korh: “The Double Life of the Transaction Abstraction: Fundamental Principle and Evolving 
System Concept”( invited talk ) Proc. 21st Int Conf on Very Large Data Bases, Zurich, Switzerland 
(September 1995 ) . 

简单 概要 地 描述 了 为 支持 新 的 应 用 需求 事务 概念 的 新 发 展 。 
Henry F. Korth ,Eliezer Levy ,and Abraham Silberschatz:“ A Formal Approach to Recovery by Compensa- 
ting Transactions,” Proc. 16th Int Conf on Very Large Data Bases, Brisbane, Australia (August 1990 ) . 

形式 化 地 定义 了 补偿 事务 的 概念 ， 用 于 sagas [15.9] 以 及 其 他 类 似 方法 中 的 已 提交 事务 以 
及 未 提交 的 事务 的 撤消 。 
David Lomet and Mark R. Tuttle:“ Redo Recovery After System Crashes,” Proc. 21st Int. Conf on Very 
Large Data Bases ,Zurich ,Switzerland( September 1995 ) . 

对 重 做 恢复 〈 即 正 向 恢复 ) 进行 了 精确 、 仔 细 的 分 析 。“ 虽 然 重 做 恢复 仅 为 恢复 的 一 种 形 
式 ， 但 其 作为 整个 恢复 过 程 的 重要 组 成 部 分 ， 必 须 处 理 最 困难 的 问题 ， 因 而 是 非常 重要 的 。 
(注意 ， 与 本 章 15.4 节 中 给 出 的 算法 相对 照 ，[15. 19] 中 的 ARIES“ 建 议 将 恢复 过 程 理解 为 先 
做 重 做 恢复 ， 后 做 撤消 恢复 ”)。 作 者 认为 他 们 的 分 析 将 有 助 于 更 好 地 理解 已 存在 的 实现 方式 以 
及 提出 对 恢复 系统 的 改进 方案 。 
Raymond A. Lorie: “Physical Integrity in a Large Segmented Database,” ACM TODS 2, No. 1 (March 
1977). 

正如 参考 文献 [15. 13] 中 所 说 的 ， 这 篇 论文 描述 了 Sy m R 恢复 子 系统 的 影子 页 机 制 
( 注 : 顺便 提 一 下 ， 术 语 “ 集 成 ”与 第 8 章 中 的 完整 性 概念 没有 任何 关系 )。 基 本 思想 很 简单 : 
当 一 (未 提交 的 ) 更 新 第 一 次 写 人 数据 库 时 ， 系 统 并 不 替换 已 存在 的 那 一 页 ， 而 是 在 磁盘 的 其 
他 地 方 存储 新 的 一 页 。 旧 页 即 为 新 页 的 “影子 " 。 提 交 更 新 必须 更 新 指针 的 指向 ， 使 其 指向 新 的 
一 页 ， 并 废除 影子 页 ; 回 滚 更 新 必须 将 影子 页 复位 ， 并 废除 新 页 。 

虽然 概念 很 简单 ， 但 影子 页 机 制 有 一 严重 的 缺陷 ， 就 是 破坏 了 数据 原 有 的 物理 聚集 。 因 此 
该 机 制 并 未 应 用 于 DB2 [15.5] ， 虽 然 其 曾 应 用 于 SQLLDS [4.14] 中 。 
C. Mohan , Don Haderle, Bruce Lindsay , Hamid Pirahesh, and Peter Schwartz: “ARIES :A Transaction 
Recovery Method Supporting Fine- Granularity Locking and Partial Rollbacks Using Write Ahead Log- 
ging,” ACM TODS 17, No. 1(March 1992 ) . 

关于 ARIES 的 第 一 篇 论文 。 当 这 篇 论文 发 表 的 时 候 ，ARIES 已 经 在 几 个 商业 和 实验 系统 中 
得 以 实现 ， 只 是 程度 不 同 而 已 ， 其 中 包括 DB2。 以 下 引 自 论文 :“ 事 务 管 理 问题 的 解决 方案 可 用 
几 个 指标 进行 判断 : 对 一 页 以 及 跨 页 并 发 支持 的 程度 ; 结果 逻辑 的 复杂 性 ; 用 于 存储 数据 和 日 
志 的 非 挥发 性 存储 介质 和 内 存 的 空间 负载 ; 在 重启 /恢复 和 正常 处 理 阶段 所 需 的 同步 和 异步 VO 
的 次 数 ; 支持 的 功能 类 型 (如 部 分 事务 回 滚 ， 等 等 ) ; 重启 /恢复 阶段 处 理 的 项 数 ; 重启 /恢复 阶 
段 并 发 处 理 的 程度 ; 死 锁 引起 的 事务 回 滚 的 范围 ， 对 存储 数据 的 限制 ( 如 要 求 所 有 的 记录 有 唯 
一 码 ， 限 制 对 象 的 最 大 数目 为 页 面 大 小 ， 等 等 ) ;对 新 的 锁 模式 的 支持 能 力 ， 这 种 锁 模 式 允许 基 
于 交换 及 其 他 特性 并 发 执行 不 同事 务 对 同一 数据 所 做 的 增加 /减少 操作 ;等 等 。[ ARIES] 对 这 
些 指标 处 理 得 不 错 。”° 

自从 ARIES 最 先 提出 后 ， 出 现 了 大 量 的 改进 版 和 专用 版 :ARIES/CSA 〈 用 于 客户 /服务 器 
系统 ) 、ARIES/IM (用 于 索引 管理 ) 、ARIES/KVL (索引 关键 字 死 锁 ) 、ARIES/NT 〈 用 于 依 套 
事务 ) ， 等 等 。 
C. Mohan “Repeating History Beyond ARIES,” Proc. 25th Int Conf on Very Large Data Bases , Edin- 
burgh ,Scotland( September 1999 ) . 





@@ ”对 原文 稍 作 修 改 。 一 一 译 者 注 
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16. 1 引言 


DBMS 通常 允许 多 个 事务 同时 存 取 同 一 数据 库 ， 这 就 是 并 发 。 在 这 样 的 系统 中 ， 必 须 提供 某 
种 并 发 控制 机 制 以 确保 并 发 事务 间 互 不 干扰 。( 在 16. 2 节 将 给 出 在 缺乏 必要 的 控制 情况 下 发 生 的 
一 些 事 务 间 相 互 干扰 的 例子 。) 本 章 将 对 并 发 问题 展开 深入 的 讨论 ， 结 构 如 下 : 

对 刚刚 已 经 提 到 ，16.2 节 说 明 若 不 进行 适当 的 并 发 控制 将 会 出 现 什么 样 的 问题 。 

sa 16. 3 节 介 绍 处 理 上 述 问题 的 一 种 传统 的 方法 ， 即 锁 。( 锁 并 不 是 解决 并 发 控制 问题 的 唯一 

法 ， 但 却 是 实际 运用 最 广泛 的 方法 。 在 本 章 最 后 的 参考 文献 中 ， 将 介绍 几 种 其 他 的 

方法 。) 

a 16.4 节 解 释 了 锁 机 制 如 何 用 于 解决 16. 2 节 中 描述 的 问题 。 

9 锁 自 身 会 引发 的 一 些 问题 ， 其 中 最 著名 的 就 是 死 锁 。16. 5 节 将 针对 此 问题 展开 讨论 。 

a 16. 6 节 描 述 了 可 捉 行 性 的 概念 ， 其 通常 作为 并 发 事务 执行 正确 性 的 准则 。 

型 16. 7 节 讨论 并 发 对 于 上 一 章 讨论 的 话题 恢复 的 影响 。 

16.8 节 和 16. 9 节 对 锁 的 基本 思想 作 了 进一步 的 讨论 ， 即 隔离 级 别 和 意向 锁 。 

e 16. 10 节 对 事务 的 ACID 特性 提出 了 几 点 新 颖 的 、 剑 疑 性 的 意见 。 

四 16. 11 节 给 出 了 SQL 的 相关 表示 。 

s 16. 12 节 是 小 结 

引言 最 后 给 出 两 点 说 明 : 第 一 ， 和 恢复 一 样 ， 并 发 的 思想 与 底层 系统 是 否 为 关系 型 的 无 关 
(尽管 和 人 恢复 一 样 ， 在 很 大 程度 上 ， 绝 大 部 分 的 理论 工作 都 是 在 关系 数据 库 的 领域 中 来 讨论 的 
[16.6] ) 。 第 二 ， 并 发 和 恢复 一 样 都 是 很 大 的 课题 ， 在 本 章 我 们 只 能 介绍 一 些 关 于 并 发 的 最 重要 
和 最 简单 的 思想 。 一 些 特定 的 高 级 特性 ， 在 本 章 后 面 的 一 些 参 考 文 献 中 有 简要 的 描述 。 


16.2 三 个 并 发 问题 


首先 考虑 任何 一 个 并 发 控制 机 制 必 须 提 及 的 一 些 问题 ， 在 三 种 情况 下 必定 将 发 生 错 误 ， 即 在 
这 三 种 情况 下 ， 一 个 事务 即使 依照 第 15 章 的 讨论 能 保证 自身 的 正确 性 ， 但 是 如 果 其 他 的 某 个 事 
务 以 某 种 方式 干扰 此 事务 的 运行 ， 也 可 能 引发 错误 。 注 意 (依照 先前 的 假设 ) 干扰 事务 本 身 也 
可 能 是 正确 的 。 正 是 未 对 两 个 正确 运行 事务 的 交错 在 一 起 的 操作 进行 控制 产生 了 全 局 不 一 致 的 结 
果 。 这 三 个 问题 是 : 

sm 委 失 更 新 间 题 

s 未 提交 依赖 问题 

s 不 一 致 分 析 问 题 

下 面 将 依次 进行 讨论 。 

1. 丢失 更 新 问题 时 间 

考虑 图 16-1 的 情形 。 图 例 的 意思 是 : 事务 4 在 时 间 刀 检 = 
索 元 组 1; 事务 B 在 时 间 巡 检索 同一 元 组 4 事务 A 在 时 间 B |RETRIEVE t tl  - 
更 新 元 组 + (基于 时 间 #1 所 看 到 的 值 ) ; 事务 刀 在 时 间 杂 更 新 | 一 |, nnipve + 
元 组 ! (基于 时 间 2 所 看 到 的 值 ， 与 1 时 间 的 值 相同 ) 。 事 务 - | 
4 的 更 新 在 4 时 间 丢 失 ， 因 为 事务 B 甚至 都 没 看 它 就 将 其 覆 | "DATE t 
盖 了 。 t4 UPDATE 上 

2. 未 提交 依赖 问题 - 

如 果 一 个 事务 允许 检索 ， 甚 至 允许 更 新 一 个 已 被 其 他 事 
务 更 新 但 未 提交 的 元 组 ， 这 将 引起 未 提交 依赖 问题 。 因 为 如 果 图 16-1 事务 4 在 只 时 间 丢失 更 新 
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事务 尚未 提交 ， 就 有 可 能 不 再 提交 它 而 是 回 滚 ， 这 种 情况 下 ， 第 一 个 事务 所 看 到 的 数据 当前 并 不 
存在 ， 某 种 意义 上 ， 从 未 存在 过 。 人 参看 图 16-2 和 图 16-3。 


tl UPDATE t 


RETRIEVE t 上 2 


t3 ROLLBACK 


t3 ROLLBACK 





图 16-2 事务 4 在 时 间 2 依赖 未 提 图 16-3 事务 4 在 时 间 乙 更 新 未 提交 的 变化 ， 
交 的 变化 并 在 时 间 £3 丢失 了 该 更 新 

在 第 一 个 例子 (图 16-2) 中 ,事务 4 在 时 间 2 看 到 一 个 未 提交 的 更 新 〈 也 称 作 未 提交 的 变 
化 ) ， 该 更 新 在 时 间 6 被 撤消 。 事 务 4 的 操作 基于 错误 的 假设 ， 即 假设 元 组 上 具有 时 间 2 时 看 到 
的 值 ， 但 实际 上 为 时 间 #1 前 的 值 ， 结 果 事 务 4 产生 了 不 正确 的 输出 结果 。 注 意 ， 事 务 有 的 回 滚 
可 能 并 不 是 8 本身 的 故障 造成 的 ， 举 个 例子 ,可 能 是 系统 故障 的 结果 ， 此 时 事务 4 可 能 已 终止 ， 
该 故障 并 不 引起 4 的 回 滚 。 

第 二 个 例子 (图 16-3) 情况 更 糟 。 事 务 4 不 仅 依赖 时 间 2 未 提交 的 变化 ， 而 且 实 际 上 在 时 
间 53 还 丢失 了 更 新 ， 因 为 时 间 #8 时 的 回 滚 使 得 元 组 1 恢复 为 时 间 1 以 前 的 值 。 这 是 丢失 更 新 问 
题 的 又 一 形式 。 

3. 不 一 致 分 析 问 题 

图 16-4 表示 了 事务 A 和 B 对 账户 (ACC) 元 组 的 操作 : 事务 4 对 账户 余额 进行 求 和 ， 事 务 
B 将 账户 3 的 金额 10 转 到 账户 1 上 。4 产生 
的 结果 为 110， 显 然 不 正确 。 如 果 4 将 该 结果 
写 回 到 数据 库 ， 实 际 上 将 使 数据 库 处 于 不 一 
致 的 状态 .9 事务 A 看 到 了 数据 库 的 不 一 致 的 
状态 ， 并 因此 进行 了 不 一 致 的 分 析 。 注 意 该 
例 与 前 例 的 不 同 ， 这 里 不 存在 4 依赖 未 提交 
的 更 新 问题 ， 因 为 B 在 4 看 到 ACC 3 前 已 提 
交 了 所 有 更 新 。 注 意 : 顺便 提 一 下 ， 这 里 不 
一 致 分 析 应 该 是 不 正确 分 析 ， 由 于 历史 原因 ， 





RETRIEVE ACC 1: 
sum = 40 


RETRIEVE ACC 2: t2 
sum = 90 






我 们 仍然 保留 以 前 的 说 法 。 3 RETRIEVE RCC 3 
4. 综合 分 析 4 UPDATE ACC 3 : 
注意 : 在 你 第 一 次 阅读 时 ， 可 以 略 过 这 30 一 =20 

一 小 节 。 


深入 分 析 前 面 描述 过 的 问题 。 如 果 从 并 
发 的 角度 来 看 ， 很 明显 ， 对 于 数据 库 的 主要 
操作 有 两 种 : 检索 和 更 新 ; 换言之 ， 我 们 可 
以 将 事务 看 成 是 一 个 仅 由 这 两 种 操作 组 成 的 
序列 ( 当然， 除去 必要 的 BEGIN TRANSAC- 
TION 和 COMMIT 或 ROLLBACK 不 考虑 )。 
我 们 可 以 简单 地 把 两 种 操作 分 别 对 应 为 读 和 
写 。 对 于 两 个 并 发 事务 4 和 B， 只 有 当 它 们 图 16-4 事务 4 进行 了 不 一 致 的 分 析 


6 UPDATE ACC 1 : 
40 一 ”和 50 


t 

| 

| 

和 RETRIEVE ACC 1 
| 

t7 COMMIT 

| 

t 


RETRIEVE ACC 3 : 
sum = 110, not 120 | 





”如 果 考 虑 可 能 性 例如 将 结果 写 回 数据 库 ) ， 还 需要 假设 数据 库 没 有 完整 性 约束 阻止 这 个 写 操作 。 
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间 时 试图 读 或 者 写 同 一 个 数据 库 对 象 (如 元 组 1) 时 才 可 能 发 生 问题 。 这 时 有 四 种 可 能 的 情况 : 

a RR: A 和 B 都 读 t。 读 不 互相 干扰 ， 所 以 这 种 情况 下 没有 问题 发 生 。 

s RW: 4 读 1 然 后 8 试图 写 :。 如 果 B 被 允许 执行 写 操作 ， 将 会 产生 不 一 致 分 析 的 问题 (如 
图 16-4 所 示 ); 因此 ， 我 们 可 以 说 是 读 写 冲突 (RW Conflict) 引起 不 一 致 分 析 。 注 意 : 
如 果 B 被 允许 写 ， 而 后 4 再 次 读 !， 它 将 发 现 两 次 读 到 + 的 内 容 不 一 样 ， 这 种 情况 称 为 不 
可 重复 读 (nonrepeatable read) ; 不 可 重复 读 同样 是 由 于 读 写 冲突 引起 的 。 

ea WR: A 写 1 然 后 B 试 图 读 t。 如 果 B 被 允许 执行 读 操 作 ， 那 么 (正如 图 16-2 所 示 ， 除 了 
需要 对 换 事 务 4 和 B 的 角色 ) 将 有 未 提交 依赖 问题 ; 因此 我 们 可 以 说 未 提交 依赖 是 由 写 
读 冲 突 (WR Conflict) 引起 的 。 注 意 : 如 果 8 被 允许 读 1， 则 这 时 它 的 读 操作 称 为 脏 读 
(dirty read ) 。 

mWW: 4 写 ! 然 后 有 试图 写 t。 如 果 B8 被 允许 执行 写 操 作 ， 那么 (可 以 参考 图 16-1 和 
图 16-3) 将 产生 丢失 更 新 的 问题 ， 因 此 ， 我 们 说 丢失 更 新 是 由 写 写 冲 突 (WW Conflict) 
引起 的 。 注 意 : 这 时 8 被 允许 执行 的 写 操作 称 为 脏 写 (dirty write) 。 


16.3 锁 


正如 16. 1 节 中 指出 的 ， 可 采用 锁 这 一 并 发 控制 技术 解决 16. 2 节 的 所 有 问题 。 基 本 思想 很 简单 : 
当 一 个 事务 需要 确保 其 感 兴趣 的 对 象 (通常 是 一 个 数据 库 元 组 ) 在 其 完成 时 不 会 发 生 某 种 形式 的 改 
变 ， 它 必须 获得 该 对 象 上 的 一 个 锁 。 锁 的 作用 就 是 锁 住 对 象 使 得 其 他 事务 无 法 访问 ， 尤 其 是 阻止 其 
他 事务 改变 该 对 象 。 因 此 第 一 个 事务 就 能 知道 该 对 象 将 保持 稳定 的 状态 ， 并 顺利 执行 。 

下 面 将 对 锁 的 工作 方式 做 更 详细 的 解释 : 

1) 首先 假定 系统 支持 两 种 锁 ， 排 它 锁 (exclusive lock， 简 记 为 X 锁 ) 和 共享 锁 (shared 
lock ， 简 记 为 $ 锁 ) ， 定 义 将 在 下 面 两 个 段落 给 出 。 注 意 : X 锁 和 S 锁 有 了 时 也 分 别称 作 写 锁 和 读 
锁 。 在 进一步 讨论 之 前 ,假设 X 锁 和 S 锁 是 仅 有 的 类 型 ， 在 16.9 节 还 有 其 他 类 型 的 锁 的 例子 ; 
同时 假设 元 组 是 仅 有 的 可 锁 的 对 象 ， 在 16. 9 节 还 给 出 了 其 他 类 型 的 可 锁 的 对 象 。 

2) 如 果 事 务 4 在 元 组 上 上 具有 排 它 锁 (X) ， 则 来 自 某 个 不 同事 务 B 
对 1 的 任何 一 种 类 型 的 锁 的 请 求 将 被 拒绝 。 

3) 如 果 事 务 4 在 元 组 :上 具有 共享 锁 (S) ， 则 : 回 四 加 可 

a 来 自 某 个 不 同事 务 BB 对 1 的 X 锁 的 请 求 将 被 拒绝 ，; 

am 来 自 某 个 不 同事 务 B 对 1 的 S 锁 的 请 求 将 被 满足 ， 因为 8 也 将 具有 加 四 四 
1 上 的 S 锁 。 

这 些 规则 可 用 锁 类 型 相 容 矩阵 表示 ， 见 图 16-5。 该 矩阵 解释 如 下 : 图 16-5 锁 类 型 X 和 
考虑 某 个 元 组 1; 假定 事务 4 当前 具有 上 上 的 锁 ， 用 左边 列表 示 ( 破 折 号 。 ”5 的 相 容 矩阵 
= 没有 锁 ) ; 假定 某 个 不 同 的 事务 引发 出 了 对 上 的 锁 请 求 ， 用 最 上 面 的 一 行 表 示 (为 完整 起 见 ， 
仍 包括 “没有 锁 ” 的 情况 ) 。“N” 表示 冲突 ， 即 引 的 请 求 不 能 被 满足 ， 将 处 于 等 待 状态 ; “Y” 
表示 相 容 ， 即 中 的 请 求 被 满足 。 和 矩阵 显然 是 对 称 的 。 

下 面 介绍 数据 存 取 协 议 (或 称 为 锁 协 议 ) ， 其 运用 X 锁 和 S 锁 保 证 了 16. 2 节 描 述 的 问题 不 
会 发 生 : 

1) 事务 在 检索 元 组 前 需 获得 该 元 组 上 的 S 锁 。 

2) 事务 在 更 新 元 组 前 需 获得 该 元 组 上 的 X 锁 。 相 应 地 ， 如 果 其 已 经 具有 了 该 元 组 上 的 S 锁 
(因为 通常 是 RETRIEVE-UPDATE 的 顺序 ) ， 必 须 将 其 从 S 锁 升级 到 X 锁 。 

注意 : 这 里 需要 说 明 的 是 : 事务 对 元 组 的 锁 请 求 通常 都 是 隐 式 的 , “检索 元 组 ”的 请 求 通常 
隐 含 着 对 相关 元 组 的 S 锁 请 求 , “更 新 元 组 ”的 请 求 通常 隐 含 着 对 相关 元 组 的 X 锁 请 求 。 (或 者 
隐 含 着 从 S 锁 到 X 锁 的 升级 请 求 。) 当然 ， 术 语 “ 更 新 ”包括 INSERT、DELETE 以 及 UPDATE ， 
但 是 对 INSERT 和 DELETE 操作 ， 规 则 需 进一步 的 提炼 ， 这 里 略 去 了 细节 。 

3) 如 果 事 务 B 的 锁 请求 因 为 与 事务 A 已 具有 的 锁 冲 突 而 被 拒绝 ， 事 务 B 将 处 于 等 待 状态 ， 
直到 它 要 求 的 锁 被 满足 一 一 最 早 也 要 等 到 4 的 锁 被 释放 。 我 们 说 “最 早 ” 是 因为 当 4 的 锁 释 放 
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时 ， 另 一 个 相关 元 组 上 的 锁 请 求 将 被 满足 ， 但 那 不 一 定 是 8 的 一 一 因为 可 能 有 很 多 事务 在 等 待 。 
注意 : 系统 必须 保证 B 不 会 永远 处 于 等 待 状态 (这 是 有 可 能 出 现 的 ， 通常 称 作 活 锁 (livelock) 
或 铁 死 (starvation) ) 。 避 免 活 锁 的 简单 方法 是 采用 先 来 先 服务 的 策略 。 

4) X 锁 将 一 直 保 持 到 事务 结束 (COMMIT 或 ROLLBACK)。S 锁 通 常 也 保持 到 那 时 ， 例 外 
情形 可 参看 16. 8 节 。 

前 述 的 协议 成 为 加 强 的 两 阶段 封锁 (strict two- phase locking) 。 在 16.6 节 ， 我 们 将 对 它 做 详 
细 的 描述 并 且 解 释 它 的 名 字 的 由 来 。 


16. 4 重 提 三 个 并 发 问题 


本 节 介 绍 如 何 用 加 强 的 两 阶段 封锁 协议 解决 在 16.2 节 中 描述 的 三 个 问题 。 下 面 依次 进行 介绍 。 

1. 丢失 更 新 问题 

图 16-6 是 图 16-1 的 修改 形式 ， 表 示 图 16-1 在 加 强 的 两 段 封 锁 协 议 下 事务 交错 执行 的 情况 。 
事务 4 在 时 间 83 的 UPDATE 未 被 接受 ， 因 为 其 隐 含 着 对 1 的 XX 锁 请 求 ， 该 请 求 与 事务 8B 拥有 的 
S 锁 冲 突 ， 因 此 4 进入 等 待 状态 。 类 似 的 原因 ，B 在 时 间 #4 也 进入 等 待 状态 。 这 样 两 个 事务 都 无 
法 继续 执行 ， 因 此 不 存在 任何 丢失 更 新 间 题 。 锁 解决 了 丢失 更 新 问题 ， 但 同时 又 引起 另外 一 个 问 
题 。 但 至 少 其 已 解决 了 最 初 的 问题 ， 新 问题 称 作 死 锁 ， 将 在 16. 5 节 讨 论 。 








RETRIEVE t 
(acquire S lock on t) 


RETRIEVE t 
(acquire S lock on t) 


UPDATE t 一 
(request X lock on t) 一 
wait 一 
wait UPDATE t 
wait (request X lock on t) 
wait wait 
wait wait 
wait wait 





图 16-6 更 新 未 丢失 ,但 在 时 间 M4 发 生 了 死 锁 


2. 未 提交 依赖 问题 

图 16-7 和 图 16-8 分 别 是 图 16-2 和 图 16-3 的 修改 形式 ， 表 示 图 16-2 和 图 16-3 在 加 强 的 两 段 
封锁 协议 下 事务 交错 执行 的 情况 。 事 务 4 在 时 间 2 的 操作 (图 16-7 中 为 RETRIEVE, 图 16-8 中 
为 UPDATE) 在 两 种 情况 下 都 未 被 接受 ， 因 为 其 隐 含 着 对 1 的 锁 请 求 ， 这 与 B 所 拥有 的 X 锁 相 
冲突 ， 因 此 4 进入 等 待 状态 。 其 一 直 处 于 等 待 状 态 直到 事务 B 的 执行 结束 (或 者 是 COMMIT ， 
或 者 是 ROLLBACK) ， 当 8B 的 锁 释放 掉 后 ，4 才能 继续 执行 ， 而 且 在 此 时 4 所 看 到 的 是 提交 后 的 
值 (如 果 B 以 回 滚 结束 ， 则 为 B 之 前 的 值 ， 和 否则 为 B 之 后 的 值 ) 。 任 何 一 种 情况 下 ，4 都 不 再 依 
赖 未 提交 的 更 新 ， 所 以 我 们 解决 了 开始 的 问题 。 

3. 不 一 致 分 析 问 题 

图 16-9 是 图 16-4 的 修改 形式 ， 表 示 图 16-4 在 加 强 的 两 段 锁 协 议 下 事务 交错 执行 的 情况 。 事 
务 B 在 时 间 16 的 UPDATE 未 被 接受 ， 因 为 其 隐 含 着 对 ACC 1 的 X 锁 请 求 ， 该 请 求 与 事务 4 拥有 
的 S 锁 冲 突 ， 因 此 8 进入 等 待 状态 。 同 样 事务 4 在 时 间 17 的 RETRIEVE 也 未 被 接受 ， 因 为 其 隐 
含 着 对 ACC 3 的 S 锁 请 求 ， 该 请 求 与 事务 B 拥 有 的 XX 锁 冲 突 ， 因 此 事务 4 也 进入 等 待 状态 。 因 
此 ， 锁 方法 解决 了 最 初 的 不 一 致 分 析 问 题 ， 辣 时 引起 了 死 锁 。 死 锁 将 在 16. 5 节 讨 论 。 
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江 四 部 分 焉 参 营 理 


UPDATE t 
{acquire X lock on t) 


RETRIEVE t 一 
(request S lock on t) 一 


wait 一 
wait COMMIT / ROLLBACK 
wait {release X lock on t) 
resume : RETRIEVE t 
{acquire S lock on t) 
















UPDATE t 
{acquire X lock on t) 


UPDATE 七 t2 一 
{request X lock on t) | 一 
wait 一 
wait t3 COMMIT / ROLLBACK 
wait , | (release X lock on t) 
resume : UPDATE t t4 


(acquire X lock on t) | 






图 16-8 事务 4 在 时 间 忆 无 法 修改 未 提交 的 更 新 


ACC 2 











ACC 3 










RETRIEVE ACC 1 : 一 
(acquire S lock on ACC 1) 
sum = 40 





RETRIEVE ACC 2 : t2 一 
(acquire S lock on ACC 2) 一 
sum = 90 一 









RETRIEVE ACC 3 
一 (acquire S lock on ACC 3) 











一 t4 UPDATE ACC 3 

一 (acquire X lock on ACC 3) 
一 30—» 20 

一 t5 RETRIEVE ACC 1 

一 (acquire S lock on ACC 1) 





一 t6 UPDATE ACC 1 
一 | (request X lock on ACC 3) 











一 wait 
RETRIEVE ACC 3 : t7? wait 
(request 8 lock on ACC 3) wait 

wait wait 
wait Wait 


16-9 ”防止 了 不 一 致 分 析 ，f7 时 刻 又 发 生 了 死 锁 


国 
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16.5 死 锁 


到 目前 为 止 ， 我 们 已 知道 锁 (更 严格 地 说 ， 是 二 级 锁 协 议 ) 是 如 何 用 来 解决 三 个 基本 的 并 
发 问题 的 。 不 幸 的 是 ， 锁 自身 也 引发 了 问题 ， 主 要 为 死 锁 问题 。 前 一 节 已 给 出 了 两 个 死 锁 的 例 
子 。 图 16-10 给 出 了 更 一 般 的 表示 形式 ， 图 中 的 rl 和 驴 〈(r 表 示 资 源 ) 表示 任何 可 锁 的 对 象 ， 不 
必 仅 为 数据 库 的 元 组 (参看 16.9 节 ), 语句 “LOCK…EXCLUSIVE” 表 示 任 何 申请 ( 排 它 ) 锁 
的 操作 ， 可 以 为 显 式 或 隐 式 的 请 求 。 

死 锁 发 生 时 两 个 或 更 多 的 事务 同时 处 于 
等 待 状态 ， 每 个 事务 都 在 等 待 其 他 的 事务 释 
放 锁 使 其 可 继续 执行 图 16-10 中 死 锁 发 生 - 
时 涉及 两 个 事务 ， 但 涉及 三 个 、 四 个 甚至 更 | ?OCK rl EXCLUSIVE 上 











多 事务 都 是 可 能 的 ， 至 少 原理 上 是 这 样 。 但 _ t2 LOCK r2 EXCLUSIVE 
是 System R 的 实验 表明 ， 实 际 上 死 锁 几乎 从 一 | 一 
未 涉及 两 个 以 上 的 事务 [16. 9] 。 POO D2 XCLUSIVE 

死 锁 发 生 时 ， 系 统 必须 能 检测 并 解除 它 。 | ”wait t4 LOCK rl EXCLUSIVE 
检测 死 锁 就 是 检测 等 待 图 ( 即 “ 谁 在 等 待 | “eit doit 
谁 ” 的 图 一 参看 练习 16.4) 中 的 环 。 解除 


死 锁 就 是 选 出 一 个 死 锁 的 事务 ， 即 图 中 环 上 图 16.10 死 锁 示 例 
的 一 个 事务 ,将 之 回 深 ， 从 而 释放 其 所 拥有 
的 锁 使 得 其 他 一 些 事务 可 继续 执行 下 去 。 注 意 : 实际 上 ， 并 不 是 所 有 的 系统 都 进行 死 锁 检 测 ， 有 
些 系统 采用 超时 机 制 ， 简 单 地 假设 在 预定 时 间 内 不 工作 的 事务 发 生 了 死 锁 。 
可 以 看 出 ， 被 选择 回 滚 的 事务 自身 并 未 发 生 错 误 ， 有 些 系统 将 自动 重启 这 样 的 事务 ， 当 然 ， 
这 是 基于 最 初 引起 死 锁 的 条 件 可 能 不 再 出 现 的 假设 。 其 他 的 系统 则 简单 地 向 应 用 程序 返回 “ 死 
锁 受害 者 ”的 代码 ， 以 便 应 用 程序 以 某 种 合理 的 方式 处 理 该 情形 。 从 程序 员 的 角度 看 ， 前 一 种 
方法 显然 更 可 取 。 但 是 ， 即 使 有 时 需要 程序 员 进 行 必 要 的 处 理 ， 将 问题 隐藏 起 来 不 让 最 终 用 户 感 
知 总 是 很 必要 的 。 
避免 死 锁 
除 可 人 允许 死 锁 的 发 生 并 在 产生 死 锁 后 解除 死 锁 〈 绝 大 部 分 系统 采用 这 种 方式 ) 之 外 ， 也 可 
以 修改 封锁 协议 从 而 避免 死 锁 。 这 里 简要 地 讨论 一 种 方案 。 这 个 方案 提出 了 两 种 策略 (虽然 此 
方案 是 在 分 布 式 的 环境 中 提出 ， 但 是 同样 适用 于 集中 式 系统 ) ， 分 别称 为 等 待 -死亡 (Wait-Die) 
和 伤害 - 等待 《 Wound- Wait) 。 这 两 种 策略 的 工作 原理 如 下 : 
。 每 个 事务 都 被 标 上 它 开始 时 间 的 时 间 截 (唯一 的 ) 。 
， 当 事 务 4 申请 在 已 被 事务 B 封锁 的 元 组 上 加 锁 时 : 
。 等待- 死亡: 如果 A 比 B 年 老 ， 则 4 等 待 ; 否则 4“ 死亡 ”一 一 即 4 回 滚 并 重新 开始 。 
。 伤 害 -等 待 : 如 果 A 比 B 年 轻 ， 则 4 等 待 ;否则 它 将 “伤害 ”8 一 一 即 B 回 滚 并 重新 开 
始 。 
= 如果 一 个 事务 重新 开始 ， 它 保留 它 原来 的 时 间 惟 。 
注意 : 以 上 两 个 名 字 的 前 半 部 分 (Wait 或 Wound) 表示 当 A4 比 B 年 老 时 发 生 的 情况 。 由 上 
面 的 描述 我 们 知道 ， 等 待 -死亡 意味 着 所 有 的 等 待 都 是 年 老 的 事务 等 待 年 轻 的 事务 ， 而 伤害 - 等 
待 则 意味 着 所 有 的 等 待 都 是 年 轻 的 事务 等 待 年 老 的 事务 。 无 论 选 用 哪 一 种 策略 ， 很 明显 死 锁 都 不 
会 发 生 。 同 时 ， 每 一 个 事务 都 可 以 保证 最 后 能 够 成 功 地 执行 一 一 因为 活 锁 〈livelock) 不 可 能 发 
生 〈 不 会 有 事务 陷入 永久 的 等 待 ) ， 也 不 会 有 事务 会 无 限 次 地 重新 开始 。 这 种 方法 〈 不 管 是 哪 种 
策略 ) 的 主要 缺点 是 会 引起 过 多 的 回 滚 。 





外 ” 死 锁 还 被 形象 地 称 作 死 死 拥抱 ( deadly embrace) 。 
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16.6 可 串 行 性 


有 了 前 面 的 基础 ， 现 在 来 解释 一 个 重要 概念 一 一 可 串 行 性 。 可 串 行 性 通常 作为 多 个 事务 执行 
的 正确 性 准则 。 更 精确 的 说 法 是 ， 多 个 事务 的 某 个 调度 是 正确 的 ， 当 且 仅 当 其 是 可 串 行 化 的 .9 
一 组 给 定 事 务 的 执行 是 可 串 行 化 的 一 一 因此 也 是 正确 的 一 一 当 且 仅 当 它 和 这 组 事务 的 某 个 串 行 
执行 等 价 〈 也 即 保证 产生 相同 的 结果 ) ， 其 中 : 

m 捉 行 执行 是 在 某 个 序列 中 一 次 执行 一 个 事务 。 

保证 的 含义 是 ; 不 管 数据 库 的 初始 状态 怎样 ， 给 定 执行 与 串 行 执行 产生 的 最 后 结果 总 是 一 

样 的 。 

可 串 行 性 的 判断 方 法 如 下 : 

1) 正如 在 第 15 章 讨论 的 ， 各 单个 事务 如 能 将 数据 库 从 一 个 正确 状态 转变 为 另 一 个 正确 状 
态 ， 就 认为 其 是 正确 的 。 

2) 按 任何 一 个 串 行 顺序 依次 运行 多 个 事务 也 认为 是 正确 的 〈 这 里 串 行 顺序 可 为 “任何 一 
个 " ， 是 基于 各 单个 事务 彼此 间 相 互 独立 的 假定 ) 。 

3) 有 了 以 上 的 两 个 结论 ， 我 们 说 一 个 交错 执行 过 程 是 正确 的 ， 当 且 仅 当 其 与 某 个 串 行 执行 
过 程 等 价 〈 即 可 串 行 化 ) 。 注 意 ,“ 仅 当 ” 的 意思 是 说 : 在 给 定 特殊 的 初始 条 件 的 前 担 下 ， 一 个 
不 可 串 行 化 的 事务 序列 交错 执行 过 程 也 可 能 产生 正确 的 结果 (参考 练习 16.3) ， 但 这 是 不 够 的 ; 
我 们 希望 正确 性 能 够 得 到 保证 ， 而 不 仅仅 是 某 种 偶然 的 事件 〈 也 即 独立 于 特定 的 数据 库 状 态 ) 。 

从 16. 2 节 中 的 例子 (图 16-1 ~ 图 16-4) 可 看 出 任何 一 种 情形 的 问题 都 在 于 交错 执行 过 程 是 
不 可 申 行 化 的 ， 也 就 是 说 ， 其 与 先 A 后 8 或 先 B 后 4 的 串 行 执行 过 程 都 不 等 价 。16.4 节 所 讨论 
的 锁 协议 正 是 强制 了 每 种 情形 的 可 串 行 性 。 图 16-7 和 图 16-8 中 的 交错 执行 过 程 等 价 于 先 B 后 4。 
图 16-6 和 图 16-9 中 发 生 了 死 锁 ， 这 暗示 了 两 个 事务 中 的 一 个 将 被 回 滚 ， 假 设 该 事务 稍 后 将 再 次 
执行 。 如 果 4 被 回 滚 ， 则 交错 执行 过 程 等 价 于 先 了 后 4。 

术语 : 多 个 事务 ， 其 任何 一 个 执行 过 程 ， 无 论 是 否 交 错 都 被 称 作 调 度 。 依 次 执行 这 些 事 务 ， 
不 相互 交错 ， 构 成 了 一 个 囊 行 调度 。 不 是 串 行 的 调度 称 作 交 错 调 度 ， 或 简单 地 称 作 非 捉 行 调度 。 
两 个 调度 若 保证 产生 同样 的 结果 ， 与 数据 库 的 初始 状态 无 关 ， 则 称 其 是 等 价 的 。 因 此 一 个 调度 是 
正确 的 〈 即 可 串 行 化 的 ) ， 当 且 仅 当 其 与 某 一 串 行 调度 等 价 。 

这 里 强调 一 下 ， 相 同事 务 的 两 个 不 同 的 串 行 调度 可 能 产生 不 同 的 结果 ， 因 此 这 些 事务 的 两 个 
不 同 的 交错 调度 也 可 能 产生 不 同 的 结果 ， 但 两 者 都 是 正确 的 。 举 个 例子 ， 假 设 事务 4 为 “x 加 上 
1"”， 事 务 刀 为 “将 x 翻 恤 "， 这 里 x 为 数据 库 中 的 某 项 。 同 时 假设 x 的 初始 值 为 10， 则 先 4 后 有 
的 串 行 调度 结果 为 x =22， 而 先 B8 后 4 的 品行 调度 结果 为 x =21。 这 两 个 结果 都 是 正确 的 。 任 何 
一 个 保证 与 先 A 后 8 或 先 B 后 4 等 价 的 调度 同样 都 是 正确 的 。 

可 串 行 性 的 概念 最 初 是 由 Eswaran 等 人 在 参考 文献 [16.6] 中 提出 的 ， 尽管 当时 使 用 的 不 是 
该 名 称 。 论 文中 还 证 明了 一 个 重要 的 理论 ， 称 作 两 阶段 锁 理 论 ， 描 述 如 下 :2 

如 果 所 有 的 事务 都 遵守 “两 阶段 锁 协 议 ”， 则 所 有 可 能 的 交错 调度 都 是 可 串 行 化 的 。 

两 阶段 锁 协 议 为 : 

s 在 对 任何 一 个 对 象 (如 一 个 数据 库 元 组 ) 进行 操作 之 前 ， 事 务必 须 获 得 对 该 对 象 的 锁 ; 

am 在 释放 一 个 锁 之 后 ， 事 务 不 再 获得 任何 其 他 锁 。 

遵守 该 协议 的 事务 分 为 两 个 阶段 ; 获得 锁 阶 段 ， 也 称 为 “扩展 ”阶段 ; 释放 锁 阶 段 ， 也 称 
为 “收缩 ”阶段 。 注 意 : 实际 系统 中 收缩 阶段 通常 被 压缩 为 事务 结束 时 的 单个 操作 COMMIT 或 
ROLLBACK (这 一 点 我 们 将 在 16.7 和 16. 8 节 提 到 ) 。 实 际 上 ，16. 3 节 的 数据 存 取 协 议 可 看 作 两 
阶段 封锁 协议 的 加 强 形 式 。 








”实际 上 ， 可 串 行 性 有 两 种 ， 即 冲突 可 串 行 性 和 视图 可 捉 行 性 。 视 图 可 串 行 性 几乎 没有 应 用 价值 ， 内 此 可 串 行 性 
经 常用 来 作为 冲突 可 申 行 性 的 简称 。 更 详细 的 讨论 可 以 参考 文献 [16. 21] 。 
”两 阶段 封锁 与 两 阶段 提交 没有 关系 ， 只 是 名 字 相 似 。 
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可 串 行 性 的 概念 有 助 于 更 清楚 地 理解 事务 并 发 ， 这 里 将 给 出 另外 一 些 结论 。 假 设 1 为 涉及 事 
务 Ti ,7T2,…,7Tn 的 交错 调度 。 如 果 7 了 可 串 行 化 ， 则 存在 某 个 涉及 事务 71 ,72 ,…,7T 的 串 行 调度 9， 
使 得 {等 价 于 S$S。5 为 了 的 串 行 调度 《serialization)。 

假定 Ti 入 为 71,72,…,Tn 事务 集中 的 任意 两 个 事务 。 不 失 一 般 性 ， 假 定 在 串 行 调度 5S 中 
Ti 在 万 之 前 执行 。 因 此 ， 在 交错 调度 7 的 效果 就 像 Ti 确实 在 刀 之 前 执行 一 样 。 换 名 话说， 可 串 
行 性 的 非 正 式 但 却 很 有 用 的 特征 为 : 如 果 4 和 了 姻 为 某 个 可 串 行 化 调度 的 任意 两 个 事务 ， 则 该 调 
度 中 或 者 逻辑 上 4 在 B 之 前 或 者 逻辑 上 8B 在 4 之 前 ， 即 或 者 B 看 到 A 的 输出 结果 或 者 A 看 到 B 
的 输出 结果 。( 如 果 4 更 新 资源 x，y，…，z， 并 且 B 可 看 到 其 中 的 任 一 资源 ， 则 8 或 者 在 所 有 
的 资源 被 4 更 新 后 看 到 这 些 资源 ， 或 者 在 4 更 新 所 有 的 资源 之 前 就 看 到 这 些 资 源 ， 总 之 不 可 能 
出 现 8 在 4 更 新 资源 期 间 看 到 这 些 资 源 的 情况 ) 。 相 反 ， 如 果 效 果 不 像 4 在 B 之 前 执行 或 B 在 4 
之 前 执行 ， 则 调度 是 不 可 串 行 化 的 ， 因 而 也 是 不 正确 的 。 

最 后 必须 强调 一 点 ， 如 果 某 个 事务 4 不 是 两 阶段 的 ， 即 不 遵守 两 阶段 锁 协 议 ， 则 总 能 构造 
某 个 其 他 的 事务 B 以 某 种 方式 与 4 交错 执行 ， 产 生 不 可 串 行 化 的 不 正确 的 全 局 调 床 。 为 了 减少 
资源 冲突 ， 从 而 改善 性 能 和 吞吐 量 ， 实 际 系统 通常 允许 构建 不 是 两 阶段 的 事务 ， 即 事务 提早 释放 
锁 (在 COMMIT 前 )， 并 继续 获得 更 多 的 锁 。 显 然 这 样 的 事务 冒 着 很 大 的 风险 ,实际 上 ， 人 允许 
某 一 给 定 的 事务 4 为 非 两 阶段 的 ， 赌 的 是 在 系统 中 不 存在 与 4 交错 运行 的 事务 B( 如果 存在 ， 系 
统 很 可 能 将 产生 错误 的 答案 ) 。 


16. 7 重 提 恢 复 


一 个 申 行 调度 中 的 事务 显然 是 可 以 恢复 的 ， 在 必要 的 时 候 ， 使 用 在 前 一 章 中 的 技术 可 以 撤消 
和 /或 重 做 事务 。 但 是 ， 如 果 允 许 事务 交错 执行 ， 则 事务 未 必 就 是 可 恢复 的 了 。 事 实 上 ， 在 16.2 
节 提 到 的 未 提交 依赖 问题 将 引起 可 恢复 性 问题 ， 说 明 如 下 : 

现在 假设 回 到 16.2 节 ， 那 时 还 没有 封锁 协议 ， 因 此 事务 也 不 需要 等 待 获得 一 个 锁 。 如 图 
16-11 中 的 情况 ， 它 是 由 图 16-2 修改 过 来 的 不同 的 地 方 是 现在 事务 4 在 事务 8 回 滚 之 前 提交 ) 。 
如 图 所 示 ， 为 了 使 B 的 回 深 执 行 ， 就 像 从 来 没有 发 生 过 ， 我 们 同时 要 回 深 A， 因 为 4 用 到 了 8 
的 更 新 值 ， 但 是 ， 回 滚 已 经 提交 的 事务 4 是 不 可 能 的 。 所 以 ， 图 中 的 调度 是 不 可 恢复 的 。 

一 个 调度 是 可 恢复 的 充分 条 件 [15.2] 是 ; 

如 果 A 用 到 8 的 任何 更 新 ， 则 A 不 能 在 终止 之 前 提交 。 

很 明显 ， 我 们 希望 并 发 控制 机 制 ， 即 锁 协 议 (如 果 我 们 用 
的 是 锁 ) ， 应 该 保证 所 有 的 调度 都 是 可 恢复 的 。 

但 是 ， 刚 刚 提 到 的 并 不 是 问题 的 全 部 。 现 在 假设 有 - -个 封 
锁 协 议 ， 它 不 严格 遵守 两 阶段 封锁 协议 ， 锁 可 以 在 事务 终止 前 
释放 。 然 后 考虑 如 图 16-12 (修改 自 图 16-11， 不 同 之 处 是 事务 
A 在 事务 8 终止 前 没有 提交 ， 但 是 B 提前 释放 了 它 持 有 的 锁 ) ce4 ROLLBACK 
所 示 的 情况 ， 和 图 16-11 二 样 ， 如 果 执行 B 的 回 滚 要 求 使 B 看 | 
上 去 好 像 没 有 执行 过 ， 同 样 也 需要 回 滚 4， 因 为 4 还 没有 提 一 一 
交 ， 但 是 这 样 的 级 联 回 滚 表 定 不 是 期 望 的 ,特别 是 ， 如 果 人 允许 “图 1611 一 个 不 可 恢复 的 光度 
一 个 事务 的 回 滚 级 联 地 回 滚 另 一 个 事务 ， 那 就 需要 处 理 任意 长 度 的 这 样 的 “级 联 链 "。 换 言 之 ， 
图 中 所 示 的 调度 的 问题 是 其 不 能 满足 级 联 独立 〈cascade-free) 。 

一 个 事务 调度 是 级 联 独立 的 一 个 充分 条 件 [15. 2] 是 : 

如 果 A 看 到 8 的 任何 更 新 ， 则 在 终止 前 4 被 禁止 使 用 B 的 任何 更 新 。 

严格 的 两 阶段 封锁 协议 能 保证 所 有 的 调度 都 是 级 联 独 立 的 ， 所 以 它 被 应 用 在 绝 大 部 分 的 系统 
中 。9 显然 ， 由 前 面 的 定义 可 知 ， 级 联 独立 的 调度 肯定 是 可 恢复 的 。 








”事实 上 ， 只 要 事务 仍然 是 两 阶段 的 ， 并 没有 必要 将 S 锁 一 直 保 持 到 事务 结束 ， 所 以 加 强 的 两 阶段 封锁 有 一 点 过 
于 严格 。 
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事务 4 时 间 事务 B | 


tl UPDATE t+ 
| (acquire X lock on t) 


Iii 


RETRIEVE t t2 一 

{request S lock on t) 
wait 
wait 一 
wait t3 (release lock on t+) 
wait | 一 

resume : RETRIEVE 上 t4 一 

{acquire S lock on t) | 一 








{forced rollback) t5 ROLLBACK 





图 16-12 ”一 个 级 联 回 滚 的 调度 


16.8 隔离 级 别 


可 串 行人 性 保证 了 ACID 特性 中 的 隔离 性 。 我 们 有 一 个 直接 而 且 令 人 满意 的 推论 : 如 果 所 有 的 
调度 都 是 可 串 行 化 的 ， 那 么 程序 员 在 为 事务 4 编写 程序 时 没有 必要 考虑 系统 中 同时 执行 着 事务 
下 。 但 是 ， 保 证 可 串 行人 性 的 协议 会 大 大 降低 整个 系统 的 并 发 度 ， 甚 至 到 不 能 忍受 的 地 步 。 所 以 在 
实际 应 用 中 ， 系 统 通常 支持 多 种 “隔离 ”级 别 (下 面 我 们 将 很 快 看 到 ， 在 所 有 的 非 最 高 隔离 级 
别 下 ， 事 务 之 间 并 不 是 真正 相互 隔离 的 ) 。 

隔离 级 别 用 来 表示 一 个 事务 在 与 其 他 事务 并 发 执行 时 所 能 容忍 干扰 的 程度 。 如 果 可 串 行 性 得 
到 了 保证 ， 根 本 就 不 存在 可 能 被 接受 的 干扰 ， 换 句 话 说 ， 就 是 此 种 情况 的 隔离 级 别 为 可 能 的 最 高 
级 别 ; 否则 正确 性 、 可 恢复 性 和 级 联 独立 的 调度 就 不 能 得 到 保证 。 然 而 ， 正 如 已 经 指出 的 ， 由 于 
各 种 实用 的 原因 ， 实 际 系统 通常 允许 事务 在 低 于 最 高 级 别 的 隔离 级 别 下 操作 。 在 这 一 节 ， 我 们 简 
要 地 分 析 这 个 问题 。 

至 少 可 定义 五 个 不 同 的 隔离 级 别 ， 但 参考 文献 【16. 10] 、SQL 标准 和 DB2 只 支持 四 个 。 通 
常 ， 隔 离 级 别 越 高 ， 干 扰 越 少 ， 并 发 程度 越 低 ; 隔离 级 别 越 低 ， 于 扰 越 多 ， 并 发 程度 越 高 。 作 为 
示例 ， 可 考虑 DB2 所 支持 的 两 个 级 别 ， 分 别 为 游标 稳定 性 (cursor stability) 和 可 重复 读 (re- 
peatable read) 。 可 重复 读 (RR) 是 最 高 级 别 ， 如 果 所 有 的 事务 都 操作 在 该 级 别 ， 则 所 有 的 调度 
都 是 可 串 行 化 的 。 而 在 游标 稳定 性 〈CS) 级 别 ， 如 果 事 务 4 

1) 获得 了 对 某 个 元 组 ! 的 可 寻 址 性 ,” 并 因此 

2) 获得 对 ! 的 锁 ， 接 着 

3) 未 对 元 组 更 新 并 放弃 了 对 ! 的 可 寻 址 性 ， 因 此 

4) 未 将 锁 升 级 为 XX 锁 ， 随 后 

5) 不 必 等 到 事务 结束 即 可 释放 该 锁 。 

但 是 ， 其 他 的 某 个 事务 B 现在 可 对 ! 进行 更 新 并 提交 这 一 修改 。 如 果 事 务 4 又 再 次 访问 1 
(注意 这 里 破坏 了 两 阶段 封锁 协议 ) ， 将 看 到 更 新 后 的 数据 ， 也 即 看 到 了 数据 库 的 不 一 致 状态 。 
而 在 可 重复 读 (RR) 级 别 ， 所 有 对 元 组 的 锁 〈 不 仅仅 是 X 锁 ) 都 将 保持 到 事务 结束 ， 从 而 前 面 
提 到 的 问题 将 不 会 产生 。 

几 点 说 明 : 

1) 前 面 提 到 的 问题 并 不 是 在 CS 级 别 产 生 的 唯一 问题 ， 只 不 过 它 最 容易 解释 。 但 是 不 幸 





OG 如 第 4 章 所 说 ， 它 是 通过 将 游标 设置 到 该 元 组 来 实现 的 一 一 因此 有 “游标 稳定 性 ”的 命名 。 如 果 准 确 的 说 ， 在 
DB2 中 71 获得 的 :上 的 锁 实际 上 是 “更 新 ”(U) 锁 ， 而 不 是 S 锁 〈 见 参考 文献 [4. 21] ) 。 
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的 是 ， 这 表明 只 有 在 一 个 事务 需要 访问 元 组 两 次 这 种 不 大 可 能 发 生 的 情况 下 才 需 要 RR 级 别 。 
相反 ， 有 观点 认为 RR 总 是 比 CS 更 优 的 选择 ， 在 CS 级 别 运行 的 事务 不 是 两 阶段 的 ， 因 此 无 
法 保证 可 串 行 性 ( 见 16.7 节 )。 当 然 ， 相 应 的 观点 也 认为 CS 比 RR 的 并 发 程度 高 ( 可 能 但 不 
一 定 ) 。 

2) 可 串 行 性 在 CS 隔离 级 别 下 是 不 能 保证 的 ， 这 在 实际 的 应 用 中 看 起 来 并 不 好 理解 。 所 以 
这 里 需要 重申 一 个 事实 : 如 果 一 个 事务 了 在 非 最 高 隔离 级 别 下 操作 ， 那 么 在 T 与 其 他 事务 一 起 并 
发 执行 时 ， 不 能 保证 数据 库 是 从 一 个 正确 状态 转换 到 另 一 个 正确 状态 。 

3) 支持 低 于 最 高 级 别 的 隔离 级 别 的 系统 实现 通常 提供 一 些 显 式 的 并 发 控制 能 力 (一 般 为 显 
式 的 LOCK 语句 ) ， 从 而 允许 用 户 利用 它 编写 自己 的 应 用 程序 ， 以 保证 系统 自身 未 提供 保证 的 安 
全 性 。DB2 提供 了 显 式 的 LOCK TABLE 语句 ， 人 允许 用 户 操 作 在 低 于 最 高 隔离 级 别 的 某 个 级 别 上 
获得 显 式 锁 ， 这 些 锁 的 级 别 比 DB2 在 那个 隔离 级 别 自动 实施 的 锁 级 别 要 高 。( 顺便 提 一 句 ，SQL 
标准 中 并 没有 这 样 的 显 式 并 发 控制 机 制 ， 参 考 16. 11 节 。) 

注意 ， 前 面 提 到 DB2 的 实现 中 可 重复 读 (RR) 被 描述 成 最 高 隔离 级 别 。 但 是 在 SQL 标准 
中 ， 可 重复 读 却 是 表示 一 个 严格 低 于 最 高 隔离 级 别 的 隔离 级 别 (同样 请 参考 16. 11 节 )。 

幻影 

幻影 问题 是 事务 在 非 最 高 隔离 级 别 下 操作 可 能 产生 的 特殊 问题 之 一 。 请 看 下 面 的 例子 (可 
能 有 些 不 现实 ,但 是 很 好 地 说 明了 问题 ) : 

sm 首先， 假设 事务 4 计算 客户 Joe 的 所 有 银行 账户 上 余额 的 平均 值 。 并 假设 有 三 个 这 样 的 账 

户 ， 每 个 都 有 余额 100 元 。 因 此 事务 4 扫描 3 个 账户 ， 并 在 处 理 过 程 中 获得 它们 上 面 的 共 
享 锁 ， 得 到 结果 是 100 元 。 
a 现在 ,假设 有 另 一 个 并 发 执行 的 事务 B， 它 向 数据 库 中 为 客户 Joe 添加 一 个 余额 为 200 元 
的 新 账户 记录 。 并 可 假定 新 账户 是 在 4 计算 平均 余额 之 后 添加 的 ， 并 且 B 在 添加 完成 后 
立即 提交 (同时 释放 它 在 新 元 组 上 持 有 的 排 它 锁 ) 。 

m 之 后 ， 假 设 4 再 一 次 扫描 客户 Joe 的 所 有 账户 ， 计 算 总 余额 和 账户 个 数 并 用 总 余额 除 以 账 

户 个 数 (可 能 它 希 望 确定 平均 余额 是 否 等 于 总 余额 除 以 账户 个 数 ) 。 这 时 它 会 发 现 有 4 个 
账户 而 不 是 3 个 ， 而 且 得 到 的 结果 是 125 元 而 不 是 100 元 ! 

在 上 面 的 例子 中 ， 两 个 事务 都 遵守 严格 的 两 阶段 封锁 ， 但 是 错误 仍然 发 生 了 ， 事 务 4 在 第 
一 次 时 看 到 了 一 个 并 不 存在 的 东西 一 一 一 个 幻影 。 结 果 ， 可 串 行 性 被 破坏 了 。 (显然 ， 这 个 交错 
执行 过 程 和 先 4 后 下 及 先 妃 后 4 这 两 个 串 行 执行 过 程 都 不 等 价 。) 

经 过 仔细 的 考虑 可 以 发 现 ， 这 里 的 问题 与 两 阶段 封锁 的 本 质 根 本 不 相关 。 真 正 的 问题 在 于 事 
务 4 并 没有 对 它 逻 辑 上 需要 封锁 的 东西 加 锁 ; 这 里 真正 需要 加 锁 的 并 不 是 客户 Joe 的 三 个 账户 ， 
而 是 Joe 拥有 的 账户 集合 ， 或 者 说 是 谓词 “account holder = Joe” ( 见 参 考 文献 [16.6] 和 
[16.13] ) 。2 如 果 它 加 对 了 锁 ， 那 么 事务 B 在 添加 新 账户 时 就 需要 等 待 〈 因 为 B 肯定 需要 请 求 新 
元 组 上 的 一 个 锁 ， 这 个 锁 会 和 4 持 有 的 锁 冲 突 )。 

尽管 参考 文献 【15. 12] 中 提 到 的 种 种 原因 说 明了 现在 的 大 部 分 系统 都 不 支持 谓词 锁 ， 它 们 
通过 对 当前 数据 的 访问 路 径 加 锁 的 方法 来 避免 幻影 问题 。 考 虑 刚才 Joe 的 账户 的 情况 ， 并 假设 访 
问 路 径 是 一 个 客户 名 字 的 索引 ， 系 统 可 以 对 该 索引 上 的 客户 Joe 项 加 锁 。 这 种 方法 可 以 避免 幻影 
产生 ， 因 为 幻影 的 产生 首先 需要 请 求 访问 路 径 (这 里 是 一 个 索引 项 ) 的 更 新 ， 因 此 需要 得 到 访 
问 路 径 上 的 X 锁 。 更 深入 的 讨论 请 见 参考 文献 [15. 12]。 


16.9 意向 锁 


到 目前 为 止 ， 一 直 假 设 锁 单 元 是 单个 元 组 。 但 理论 上 没有 任何 理由 能 说 明 为 什么 锁 不 能 应 用 
在 更 大 或 更 小 的 数据 单元 上 ， 如 整个 关系 变量 甚至 整个 数据 库 ， 或 特定 元 组 的 特定 部 分 。 由 此 将 
引出 锁 奏 度 这 一 概念 [16. 10，16. 11] 。 一 般 认 为 : 粒度 越 细 ， 并 发 程度 越 高 ; 粒度 越 粗 ， 需 要 





人 @ ”我 们 也 可 以 说 4 需要 对 属于 Joe 的 任何 不 存在 的 账户 加 锁 。 
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设置 和 测试 的 锁 就 越 少 ， 并 发 程度 越 低 。 举 例 来 说 ， 如 果 一 个 事务 具有 一 个 关系 变量 上 的 X 锁 ， 
则 没有 必要 对 该 变量 的 各 单个 元 组 设置 X 锁 ; 另 一 方面 ， 没 有 并 发 事务 可 获得 该 关系 变量 上 的 
锁 或 该 变量 的 元 组 上 的 锁 。 

假设 某 个 事务 了 申请 某 关 系 变量 R 上 的 X 锁 。 在 接受 7 的 请 求 之 前 ， 系 统 必须 能 判断 出 其 
他 的 事务 是 否 已 拥有 有 的 任何 一 个 元 组 上 的 锁 。 如 果 确 实 拥有 ， 则 了 的 请 求 此 时 无 法 满足 。 系 
统 怎样 才能 检测 出 这 样 的 冲突 ? 显然 ， 检 查 每 个 元 组 看 是 否 有 元 组 被 其 他 的 某 个 事务 锁 住 ， 或 检 
查 每 个 已 存在 的 锁 看 是 否 有 锁 施加 在 R 的 元 组 上 ， 这 些 方法 都 是 不 明智 的 。 由 此 将 介绍 另 一 个 
协议 ， 即 意向 锁 协 议 。 根 据 该 协议 ， 事务 在 允许 对 某 一 元 组 加 锁 之 前 必须 首先 获得 对 包含 该 元 组 
的 关系 变量 上 的 锁 ， 即 意向 锁 (参见 下 一 段 ) 。 该 例 中 的 冲突 检测 由 此 将 变 得 很 简单 ， 只 需 看 事 
务 在 关系 变量 级 是 否 有 冲突 的 锁 。 

前 面 已 说 明 X 锁 和 S 锁 对 关系 变量 和 对 单个 元 组 一 样 有 意义 ， 根 据 参考 文献 【16. 10， 
16. 11] ， 这 里 将 再 介绍 三 种 新 的 锁 ， 称 为 意向 锁 ， 这 些 锁 只 对 关系 变量 有 意义 ， 而 对 单个 元 组 无 
意义 。 这 三 种 锁 分 别称 为 意向 共享 (IS) 、 意 向 排 它 (IX) 、 共 享 意向 排 它 锁 (SIX) 。 它 们 非 形 
式 化 的 定义 如 下 (假定 事务 7 请求 获得 关系 变量 R 上 的 指定 类 型 的 锁 ， 为 完整 起 见 ， 这 里 也 包 
括 X 锁 和 S 锁 的 定义 ) : 

。 意向 共享 锁 (IS) : 意欲 对 的 元 组 设置 锁 ， 以 保证 这 些 元 组 被 处 理 时 的 稳定 性 。 

= 意向 排 它 锁 〈IX) ; 与 IS 类 似 ,必须 补充 一 点 ,可 能 对 R 的 元 组 进行 更 新 ， 从 而 将 对 这 
些 元 组 设置 X 锁 。 
共享 锁 〈(S) : 了 允许 并 发 的 读 操作 ， 但 不 允许 并 发 的 更 新 操作 。7 自身 在 R 的 任意 元 组 上 
都 无 更 新 操作 。 
共享 意向 排 它 锁 (SIX) : 综合 了 S 和 IX 锁 。 即 允许 并 发 的 读 操作 ， 但 不 允许 并 发 的 更 
新 操作 ;另外 ，7 可 能 对 R 的 元 组 进行 更 新 ， 从 而 对 这 些 元 组 设置 X 锁 。 

= 排 它 锁 (X) : 了 根本 就 不 允许 任何 对 R 的 并 发 存 取 ，7 自身 可 能 对 R 的 元 组 进行 更 新 

操作 。 

这 五 种 锁 类 型 的 正式 定义 可 用 16. 3 节 所 提 到 的 锁 类 型 相 容 矩阵 的 扩展 形式 表示 。 如 图 16-13。 

下 面 给 出 意向 锁 协 议 的 更 精确 的 表述 : 

1) 事务 在 获得 某 一 元 组 上 的 S 锁 之 前 ， 必 
须 首先 获得 包含 该 元 组 的 关系 变量 上 的 IS 或 更 
强 的 锁 。 

2) 事务 在 获得 某 一 元 组 上 的 X 锁 之 前 ， 必 
须 首先 获得 包含 该 元 组 的 关系 变量 上 的 IX 或 更 
强 的 锁 。( 但 是 这 还 不 是 完整 的 定义 ， 见 参考 文 
献 [16.10] 的 注释 。) 

前 面 协议 中 提 到 的 相对 锁 强度 的 含义 解释 如 
下 (参见 图 16-14) ; 锁 类 型 [2 强 于 (在 图 中 高 A 
下 锦 类 型 1， 当 由 仅 当 在 相 容 乱 阵 菜 一 行 中 。。 图 1 1 扩展 到 包 人 意向 镇 的 相 容 纸 阵 
ZL1 列 对 应 的 那 项 为 “N”( 冲突 ) 。 在 同一 行 中 12 对 应 的 那 项 也 为 “N” (参看 图 16-13) 。 若 某 
一 锁 类 型 的 请 求 无 法 满足 ， 对 比 之 更 强 的 锁 类 型 的 请 求 必定 也 无 法 满 








1 
足 。 这 一 事实 表明 ， 使 用 比 要 求 的 锁 类 型 更 强 的 锁 总 是 安全 的 。S 和 | 
IX 彼此 都 不 比 对 方 更 强 。 SIX 
意向 锁 协 议 所 要 求 的 关系 变量 级 的 锁 通 常 可 隐 式 地 获得 。 例 如 ，| 一 
对 某 一 只 读 事 务 ， 系 统 可 能 对 事务 存 取 的 每 一 个 关系 变量 都 隐 式 地 获 |s 1x 
得 IS 锁 。 而 对 某 一 更 新 事务 ， 则 可 能 获得 区 锁 。 但 系统 也 可 能 提供 某 QO 
种 显 式 的 LOCK 语句 以 允许 事务 获得 关系 变量 上 的 S、X、SIX 锁 。 1 


DB2 就 支持 这 样 的 语句 ， 虽 然 只 有 S 和 义 锁 , 没有 SIX 锁 。 
最 后 讨论 锁 升 级 (lock escalation) 的 概念 。 锁 升级 在 许多 系统 中 图 16-14 锁 类 型 前 驱 图 
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得 以 实现 ， 用 于 平衡 高 并 发 度 和 低 锁 管理 开销 之 间 的 冲突 。 其 基本 思想 就 是 当 系 统 达到 预定 的 靖 
值 时 ， 系 统 将 自动 用 一 个 粗 粒度 的 锁 取 代 一 组 细 粒 度 的 锁 。 例 如 ， 取 代 一 组 单个 元 组 级 的 S 锁 ， 
将 包含 这 些 元 组 的 关系 变量 上 的 IS 锁 改 变 为 $ 锁 。 该 技术 在 实际 应 用 中 很 有 效 [16.9] 。 


16. 10 ACID 的 不 足 之 处 


在 第 15 章 曾经 提 到 在 这 一 章 将 会 有 更 多 的 关于 事务 的 ACID 特性 的 讨论 ; 实际 上 ， 确 实 有 
一 些 关 于 这 个 主题 的 非 正统 的 观点 ， 接 下 来 我 们 将 讲述 。 

首先 做 一 个 简要 的 回顾 : ACID 是 原子 性 、 正 确 性 、 隔 离 性 、 持 久 性 的 英文 首 字母 简写 。 

s 原子 性 : 任何 事务 要 么 全 做 ， 要么 全 不 做 。 

a 正确 性 (文献 中 通常 称 为 一 致 性 ) : 任何 事务 的 执行 都 是 将 数据 库 从 一 个 正确 状态 转换 为 

另 一 个 正确 状态 ， 但 在 事务 执行 的 任何 中 间 点 没有 必要 保持 正确 状态 。 

a 隔离 性 : 在 事务 提交 之 前 ， 它 的 任何 更 新 对 于 其 他 所 有 事务 都 是 不 可 见 的 。 

a 持久 性 : 一 旦 事务 提交 ， 即 使 随后 系统 裔 澳 ， 它 的 更 新 就 被 永久 保存 在 数据 库 中 。 

ACID 是 一 个 好 的 简写 ， 但 是 它 表 达 的 概念 是 否 真 的 能 够 经 受 严密 检验 ? 答案 是 否定 的 。 在 
这 一 节 ， 我 们 列 出 一 些 证 据 来 回答 这 个 问题 。 

1. 即刻 约束 检查 

我 们 首先 从 一 个 看 似 题 外 话 的 论点 开始 : 所 有 的 完整 性 约束 都 要 即刻 地 检查 (在 语句 结束 
时 ) ， 而 不 是 推迟 到 事务 的 结束 。 这 一 观点 曾经 在 第 9 章 介 绍 过 ， 现 在 再 次 辨 明 这 一 立场 。 至 少 
有 四 个 理由 支持 这 一 立场 ， 现 描述 如 下 : 

1) 我 们 知道 ， 一 个 数据 库 可 以 看 成 是 一 个 命题 的 集合 (通常 情况 下 看 是 这 样 )。 如 果 这 个 
集合 允许 不 一 致 性 ， 那 就 没有 什么 可 以 讨论 的 了 。 一 个 不 一 致 的 数据 库 的 回答 是 不 可 信 的 ; 实际 
上 上， 这样 的 数据 库 可 以 给 出 任意 的 回答 (证 明 请 参考 第 9 章 的 参考 文献 [9. 16] ) 。 隔 离 性 或 者 
“J” 特 性 是 说 哪怕 只 是 一 个 事务 有 可 能 看 到 某 种 特殊 情况 下 的 不 一 致 ， 那 么 这 个 事务 就 有 可 能 
看 到 数据 库 的 不 一 致 状态 并 产生 错误 的 结果 。 正 是 因为 不 一 致 性 是 不 能 够 容忍 的 ， 即 使 是 限制 不 
允许 一 个 以 上 的 事务 同时 看 到 不 一 致 性 仍然 不 够 ， 所 以 约束 需要 即刻 实施 。 

2) 在 任何 情况 下 都 不 能 保证 某 个 不 一 致 状态 (假设 是 允许 的 ) 只 被 一 个 事务 看 到 。 只 有 事 
务 遵循 特定 协议 (这 里 所 说 的 特定 协议 还 没有 实施 ， 事 实 上 也 不 可 实施 ) 时 ， 它 们 才能 互相 保 
持 隔离 。 举 个 例子 ， 假 设 事务 4 看 到 数据 库 的 不 一 致 状态 并 且 将 这 一 状态 写 入 到 某 个 文件 书 然 
后 事务 B 刚好 从 FF 中 读 取 了 这 一 信息 ， 那 么 4 和 8B 就 不 是 真正 互相 隔离 的 (不 管 它 们 是 否 并 
发 ) .2 换言之 ， 至 少 可 以 说 事务 的 “1” 特性 是 可 疑 的 。 

3) 本 书 的 前 一 版 本 曾 提 到 : 关系 变量 约束 《Telvar constraint) 是 即刻 检查 的 而 数据 库 约束 
是 在 事务 结束 时 检查 的 (很 多 作者 曾 使 用 不 同 的 术语 同时 阐述 了 这 一 点 )。 但 是 可 交换 性 原则 
( The Principle of Interchangeability) (基本 和 导出 的 关系 变量 一 一 参看 第 9 章 ) 意味 着 ， 一 个 真 
实 世 界 的 约束 可 能 是 关于 数据 库 的 关系 变量 约束 和 关于 另 一 数据 库 的 数据 库 约束 ! 又 因为 关系 变 
量 约束 必须 即刻 检查 ， 所 以 数据 库 约 束 也 必须 即刻 检查 。 

4) 执行 “语义 优化 ”的 能 力 要 求 数据 库 必须 随时 保持 一 致 性 ， 而 不 仅仅 是 在 事务 的 边界 上 
保持 一 致 性 。 注 意 ; 语义 优化 是 通过 利用 完整 性 约束 简化 查询 来 提高 性 能 的 一 种 技术 。 很 明显 ， 
如 果 约 束 不 被 满足 ， 那 么 简化 就 不 可 能 是 有 效 的 。 进 一 步 的 讨论 请 参考 第 18 章 。 

当然 ,， “传统 的 智慧 ”认为 数据 库 约束 的 检查 至 少 是 不 得 不 推迟 的 。 举 一 个 小 的 例子 ,假设 
供应 商 - 零件 数据 库 有 约束 “供应 商 51 和 零件 Pl 在 同一 个 城市 "。 又 假设 供应 商 8S1 从 伦敦 搬 
到 巴黎 ， 那 么 零件 Pl 也 必须 从 伦敦 搬 到 巴黎 。 这 个 问题 的 常规 的 解决 方案 是 将 这 两 个 更 新 包装 
到 一 个 事务 中 : 





全 ”实际 上 ， 即 使 4 没有 看 到 数据 库 的 不 一 致 状态 ， 问 题 仍然 会 发 生 ; 因为 4 仍然 可 能 将 不 一 致 的 数据 写 人 文件 而 
且 随 后 被 8 读 到 。 





304 有 四 部分 事 和 姑 党 理 


BEGIN TRANSACTION ; 

UPDATE S WHERE S# = S# ('S1') { CITY := 'Paris' } ，; 
UPDATE P WHERE P# = p# ('Pl') { CITY := 'Paris' } ; 
COMMIT ; 


在 常规 的 解决 方案 中 ， 约 束 在 COMMIT 时 检查 ， 在 两 次 更 新 之 间 ， 数 据 库 是 不 一 致 的 。 特 
别 是 ， 如 果 执 行 更 新 的 事务 在 两 次 更 新 操作 的 中 间 向 数据 库 提 问 :“ 供 应 商 S1 和 零件 Pl 在 同一 
个 城市 吗 ?” 会 得 到 和 否定 的 回答 。 

回想 起 来 ， 我 们 需要 支持 多 赋值 任务 操作 符 以 允许 在 同一 个 操作 〈 也 即 一 条 语句 ) 中 执行 
多 个 任务 ， 而 在 所 有 这 些 任务 执行 的 期 间 没有 任何 的 完整 性 约束 检查 。 我 们 知道 ，INSERT、 
DELETE 和 UPDATE 都 是 某 个 特定 任务 的 简写 。 在 刚才 的 例子 中 ， 为 了 在 一 条 语句 内 执行 两 个 
更 新 ， 可 以 这 样 写 : 


UPDATE S WHERE S# = S# ('S1') { CITY : 
UPDATE P WHERE P# = P# ('P1') { CITY : 


这 样 ， 在 两 个 更 新 都 完成 以 前 (也 就 是 到 达 分 号 时 ) 就 不 再 有 完整 性 检查 。 注 意 ， 现 在 事务 再 
也 不 会 在 两 次 更 新 之 间 看 到 数据 库 的 不 一 致 状态 了 ， 因 为 “两 次 更 新 之 间 ” 的 概念 现在 不 再 有 
意义 。 

从 这 个 例子 可 以 看 出 ， 如 果 支 持 多 任务 操作 符 ， 那么 就 不 再 需要 传统 认识 中 的 推迟 检查 
(即将 检查 推迟 到 事务 结束 时 ) 了 。 

接 下 来 讨论 ACID 特性 的 本 质 。 为 了 配合 我 们 的 目标 ， 我 们 按照 C-I-D-A 的 顺序 展开 。 

2. 正确 性 

我 们 已 经 阐述 了 使 用 正确 性 一 词 取 代 更 经 常用 到 的 一 致 性 一 词 的 原因 ( 见 第 15 章 ) 。 事 实 
上 ， 在 数据 库 领域 内 通常 认为 这 两 个 概念 是 等 同 的 。 例 如 在 Gray 和 Reuter 的 书 [15. 12] 的 术 
语 表 中 有 : 

Consistent. Correct，( 一致 的 : 正确 的 。) 
在 这 本 书 中 给 出 的 事务 的 一 致 性 的 定义 如 下 : 

一 致 性 : 事务 是 状态 的 正确 转换 。 转 换 动作 的 整体 不 破坏 任何 与 状态 相关 的 完整 性 约束 。 它 
要 求 事务 是 一 个 正确 的 程序 [sic] 。 
但 是 如 果 完 整 性 约束 总 是 即刻 检查 ， 数 据 库 总 是 一 致 的 ， 而 事务 也 总 是 将 数据 库 从 一 个 一 致 状态 
转换 到 另 一 个 一 致 状态 , 但是， 这 些 都 不 代表 数据 库 是 必然 正确 的 。 

所 以 如 果 ACID 中 的 C 代表 一 致 性 ， 这 个 特性 就 不 重要 了 ,2 如 果 代 表 正 确 性 ， 又 是 不 可 实 
现 的 。 无 论 是 哪 种 情况 ， 这 个 特性 都 是 没有 意义 的 ， 至 少 从 一 个 正式 的 立场 上 看 是 如 此 。 我 们 更 
倾向 于 认为 C 代表 正确 性 ， 所 以 我 们 说 “正确 性 ”并 不 是 一 个 真正 的 特性 ， 而 是 一 种 期 望 之 物 。 

3. 陋 离 性 

现在 讨论 隔离 性 。 在 本 节 开 头 “ 即 刻 约束 检查 ”小 节 中 已 经 解释 过 ， 这 个 特性 也 是 疑义 的 。 
如 果 每 个 事务 都 表现 得 是 系统 中 唯一 的 事务 ， 那 么 一 个 合适 的 并 发 控制 机 制 可 以 保证 隔离 性 
(和 可 串 行 性 ) 。 但 是 ,“ 表 现 得 像 是 系统 中 的 唯一 事务 ”还 意味 着 这 个 事务 必须 : 

不 试图 有 意 或 者 无 意 地 同 其 他 并 发 或 者 非 并 发 的 事务 交流 。 

s 不 试图 侦 测 系统 中 存在 其 他 事务 的 可 能 性 〈 当 被 赋予 非 最 高 的 隔离 级 别 时 ) 。 

所 以 ， 由 于 上 述 条 件 的 限制 ， 隔 离 性 同样 更 像 是 一 种 期 望 之 物 。 而 在 实际 的 系统 中 甚至 存在 
肯定 会 破坏 隔离 性 的 显 式 的 机 制 〈( 即 非 最 高 的 隔离 级 别 ) 。 

4. 持久 性 

接 下 来 讨论 持久 性 。 因 为 有 恢复 机 制 ， 只 要 事务 不 棋 套 (在 这 之 前 我 们 已 经 这 样 假设 过 )， 
这 个 特性 就 是 合理 的 。 现 在 假设 事务 允许 符 套 ， 特 别 地 ， 假 设 事务 B 贬 套 在 事务 4 中 ， 并 且 发 
生 了 下 面 的 事件 序列 : 


‘Paris' },， 
'Paris’' } ; 





加 ”事实 上 ， 即 使 约束 不 是 即刻 检查 〈 如 果 事 务 违 背 了 任何 约束 ， 事 务 仍 然 会 回 滚 ， 跟 没有 执行 的 效果 一 样 ) ， 一 至 
性 还 是 不 重要 。 换 言 之 ， 只 要 事务 不 违背 任何 约束 ， 它 们 就 会 对 数据 库 有 持久 的 作用 。 
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BEGIN TRANSACTION (transaction A) ; 


BEGIN TRANSACTION (transaction 日) ; 
transaction 8 updates tuple t ; 
COMMIT (transaction B) ; 


ROLLBACK (transaction A) ; 


如 果 4 的 ROLLBACK 执行 ,那么 B 也 会 被 回 液 (因为 B 是 4 的 一 部 分 )， 这样 B 对 于 数据 库 的 更 
新 就 不 再 是 “持久 的 ”了 ; 事实 上 ，4 的 ROLLBACK 使 得 元 组 上 的 值 恢 复 到 4 执行 以 前 的 值 了 。 
换言之 ,持久 性 不 再 被 保证 。 至 少 对 于 像 本 例子 中 B 这 样 嵌 套 在 别 的 事务 中 的 事务 是 如 此 。 

现在 ,许多 的 研究 者 (Davies 是 发 起 人 ， 见 参考 文献 [15.8]) 开始 仿照 刚才 例子 中 的 形式 
研究 支持 髓 套 事务 。 参 考 文献 [15. 15] 指出 ， 这 种 支持 至 少 从 以 下 三 个 方面 来 看 是 值得 的 : 事 
务 内 并 发 、 事 务 内 恢复 控制 和 系统 模块 性 。 正 如 刚才 的 例子 所 示 ， 在 一 个 支持 向 套 事务 的 系统 
中 ， 内 层 事务 的 COMMIT 提交 事务 的 更 新 ， 但 只 是 相对 于 内 层 事 务 的 直接 外 层 。 实 际 上 ， 外 层 
事务 对 内 层 事务 的 COMMIT 拥有 否决 权 一 一 如 果 外 层 事务 回 滚 ， 内 层 事务 相应 回 滚 。 在 本 例 中 ， 
B 的 COMMIT 只 是 对 4 的 ， 而 不 是 对 外 面世 界 的 ， 而 它 随 后 确实 被 撤消 〈 回 滚 ) 。 

注意 : 我 们 可 以 说 骨 套 事务 是 保存 点 的 一 个 概括 思想 。 保 存 点 允许 事务 结构 化 成 一 个 按 顺 序 
依次 执行 动作 的 线性 序列 (这样 ， 事 务 可 以 回 滚 到 序列 中 任何 前 面 的 动作 ) 。 与 之 形成 对 比 ， 赂 
套 允 许 事务 递归 地 结构 化 ， 是 一 个 并 发 执行 的 动作 的 层次 结构 。 换 言 之 : 

ma BEGIN TRANSACTION 扩展 支持 “ 子 事务 ” (也 就 是 说 ， 如 果 在 一 个 事务 已 经 运行 时 遇 

到 BEGIN TRANSACTION， 将 开始 另 一 个 子 事务 ) 。 

s COMMIT “提交 ”， 但 只 限于 双亲 范围 内 (如 果 事 务 是 子 事务 ) 。 

sm ROLLBACK 撤消 操作 ， 但 只 撤消 到 这 个 事务 的 开始 处 〈 包 括 它 的 孩子 、 孙 子 等 ， 但 是 不 

包括 可 能 的 双亲 事务 ) 。 

回 到 讨论 的 主线 : 事务 的 持久 性 只 是 在 最 外 层 有 效 ”( 换 言 之， 只 对 不 被 任何 其 他 事务 嵌 套 
的 事务 有 效 ) 。 因 此 ， 这 个 特性 也 不 能 100% 保 证 。 

5. 原子 性 

最 后 讨论 原子 性 。 和 持久 性 一 样 ， 这 个 特性 也 是 由 系统 的 恢复 机 制 保证 的 〈 航 套 事务 也 如 
此 )。 这 里 我 们 的 观点 有 些 不 同 。 特 别 地 ， 如 果 系 统 支持 多 任务 ， 那 么 事务 就 没有 必要 拥有 原子 
人 性; 而 语句 拥有 原子 性 仍然 是 充分 的 。 更 进一步 ， 语 句 拥有 原子 性 也 是 必要 的 ， 其 原因 已 经 在 别 
的 地 方 讨论 过 了 。° 

6. 结论 

我 们 可 以 用 下 面 几 个 带 修饰 色彩 的 问题 来 概括 本 节 : 

虽 事务 是 操作 单元 吗 ? 是 ， 但 只 有 在 不 支持 多 任务 时 才 是 。 

下 事务 是 恢复 的 单元 吗 ? 答案 同上 。 

号 事务 是 并 发 的 单元 吗 ? 答案 同上 。 

昌 事务 是 完整 的 单元 吗 ? 是 ， 但 仅 当 不 支持 “所 有 约束 都 即刻 检查 ”时 才 成 立 。 
注意 : 在 回答 这 些 问 题 时 没有 考虑 在 前 面 的 章节 中 (和 本 书 的 以 前 版 本 ) 提出 的 有 关 这 个 领域 
内 的 更 加 有 “传统 的 智慧 ”不 同 看 法 。 

总 的 来 说 ， 我 们 总 结 : 事务 作为 一 个 重要 的 概念 ， 更 多 的 是 从 实际 的 角度 而 不 是 从 理论 的 角 
度 来 看 。 请 注意 这 并 不 是 一 种 贬低 ! 对 于 过 去 25 年 以 来 事务 管理 领域 的 一 流 的 研究 成 果 ， 我 们 
拥有 唯一 的 情感 是 尊敬 。 我 们 仅仅 是 注意 到 现在 我 们 对 于 研究 所 基于 的 那些 假设 有 了 更 好 的 理 
解 一 一 特别 是 对 于 完整 性 约束 的 至 关 重要 的 角色 有 了 更 好 的 理解 ， 辣 时 也 发 现 了 支持 多 任务 并 把 
它 作 为 一 个 基本 操作 符 的 需要 。 实 际 上 ， 如 果 前 提 假 设 改 变 不 导致 结论 的 改变 ， 那 才 是 令 人 感到 





OO 参考 文献 [15. 15] 说 明了 对 于 一 致 性 特性 也 是 如 此 。 因 为 像 在 绝 大 部 分 情况 下 那样 ， 这 里 仍然 假设 最 外 层 的 事 
务 在 它 执行 的 中 间 没 有 必要 保持 一 致 性 ,但 是 ， 前 面 的 原因 已 经 驶 回 了 这 个 观点 。 
外 绝 大 部 分 SQL 标准 中 的 语句 都 拥有 原子 性 。 
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惊讶 的 。 
16. 11 _ SQL 的 支持 


SQL 标准 不 提供 任何 显 式 的 锁 支持 ， 实 际 上 ， 根 本 就 未 提 及 锁 。? 但 是 ， 实 际 系统 必须 采取 
相关 措施 以 免 并 发 执行 的 事务 相互 干扰 。 特 别 地 ， 它 要 求 事务 71 的 更 新 对 其 他 不 同 的 事务 72 不 
可 见 ， 直 到 事务 71 提交 更 新 结束 。 注 意 : 假设 所 有 的 事务 都 在 下 面 的 隔离 级 别 下 执行 : 读 已 提 
交 (READ COMMITTED ) ， 可 重复 读 (REPEATABLE READ ) ， 或 者 可 串 行 化 (SERIALIZ- 
ABLE) (参考 下 面 一 段 ) 。 需 要 特别 注意 的 是 在 读 未 提交 (READ UNCOMMITTED) 的 隔离 级 
别 下 ， 事 务 (a) 可 以 进行 “ 脏 读 ”; (b) 必须 是 只 读 (READ ONLY) 的 (如 果 人 允许 READ 
WRITE， 那 么 可 恢复 性 将 得 不 到 保证 ) 。 

回顾 第 15 章 的 内 容 ，SQL 隔离 级 别 是 在 START TRANSACTION 语句 中 定义 的 。 它 有 四 个 
候选 项 ，SERALIZABLE ，REPEATABLE READ, READ COMMITTED 和 READ UNCOM- 
MITTED。.” 默认 是 SERIALIZABLE ， 如 果 指 定 了 其 他 三 个 级 别 中 的 任何 一 个 ， 执 行 时 可 以 自由 
地 设置 某 一 较 高 的 级 别 。 这 里 “ 较 高 ”是 根据 这 样 的 排序 定义 : SERIALIZABLE > REPEAT- 
ABLE READ > READ COMMITED > READ UNCOMMITED。 

如 果 所 有 事务 都 执行 在 隔离 级 别 SERIALIZABLE (默认 情况 下 ) ， 则 任意 一 组 事务 的 交错 执 
行 过 程 都 是 可 串 行 化 的 。 但 是 ， 如 果 有 事务 执行 在 较 低 的 隔离 级 别 ， 则 可 能 存在 多 种 不 同 的 违背 
可 串 行 性 的 情形 。 标 准 定义 了 三 种 情形 : 读 脏 数据、 不 可 重复 读 和 幻影 (前 两 个 在 16. 2 节 做 出 
了 解释 ， 第 三 个 的 解释 见 16. 8 节 ) ， 对 应 不 同 的 隔离 级 别 ， 分 别 有 不 同 的 违背 可 串 行 性 的 情况 可 
能 发 生 。2 这 些 情况 总 结 在 图 16-15 中 (“Y” 表 示 违 背 可 串 行 性 的 情况 可 能 发 生 , “N” 表示 不 
可 能 发 生 ) 。 














隔离 级 别 读 脏 数据 不 可 重复 读 | | 
READ UNCOMMITTED Y Y 
READ COMMITTED Y Y 
REPEATABLE READ N Y 
SERIALIZABLE N N 


图 16-15 SQL 隔离 级 别 


在 本 节 结 束 之 前 ， 这 里 要 重复 的 一 点 是 : SQL 的 可 重复 读 (REPEATABLE READ) 和 DB2 
中 的 “可 重复 读 (RR)” 不 是 一 回 事 。 事实 上 ，DB2 中 的 RR 与 SQL 中 的 “可 串 行 化 ”的 隔离 
级 别 相 同 。 


16. 12 ”小结 


本 章 考 虑 了 有 关 并 发 控制 的 问题 。 首 先 介绍 了 并 发 事务 的 交替 执行 中 没有 并 发 控制 时 会 产生 
的 三 个 问题 ， 即 : 委 失 更 新 、 未 提交 依赖 和 不 一 致 分 析 。 产 生 这 些 问题 的 调度 都 是 不 可 串 行 化 
的 ， 即 不 能 等 价 于 涉及 相同 事务 的 某 个 串 行 调度 。 

解决 这 些 问 题 的 最 常用 的 技术 是 锁 。 锁 的 基本 类 型 有 两 种 ， 即 共享 锁 (S 锁 ) 和 排 它 锁 (X 
锁 ) 。 如 果 某 个 事务 在 某 个 对 象 上 施加 了 S 锁 ， 则 其 他 事务 也 能 在 该 对 象 上 申请 S 锁 ， 但 不 能 对 
该 对 象 申请 X 锁 ; 如 果 某 个 事务 在 某 个 对 象 上 施加 了 和 X 锁 ， 则 其 他 事务 不 能 对 该 对 象 申请 任何 
锁 。 为 了 保证 不 发 生 丢失 修改 ， 可 以 引 人 这 样 一 个 锁 协 议 : 对 任何 要 检索 的 对 象 申请 S 锁 ， 对 任 


幻影 





”元 余 是 必要 的 一 一 系统 为 了 实现 期 望 的 功能 ， 就 要 求 能 够 自由 地 选用 任何 并 发 控制 机 制 。 

四 SERIALIZABLE 用 在 这 里 并 不 特别 合适 ， 因 为 它 指 的 是 调度 的 可 串 行 化 ， 而 不 是 事务 的 。- 一 个 更 好 的 术语 是 
TWO PHASE， 表 示 事 务 将 遵守 〈 或 强制 遵守 ) 两 阶段 封锁 协议 。 

请 见 参考 文献 [16.2] 和 [16.14j。 


人 





0 


何 要 更 新 的 对 象 申 请 X 锁 ,并 将 锁 保 持 到 事务 结束 。 该 协议 可 以 实现 事务 的 串 行 化 。 

上 面 所 描述 的 协议 是 两 阶段 封锁 协议 的 一 个 较 强 但 很 常见 的 形式 。 由 此 得 出 两 段 锁定 理 : 如 
果 所 有 的 事务 都 遵循 该 协议 ， 那 么 所 有 的 调度 都 是 可 串 行 化 的 。 可 串 行 调度 意味 着 : 如 果 4 和 8B 
是 该 调度 所 涉及 的 两 个 事务 ， 那 么 或 者 4 看 到 B 的 输出 ， 或 者 互 看 到 4 的 输出 。 遗 憾 的 是 ， 两 
阶段 封锁 协议 可 能 导致 死 锁 的 发 生 。 打 破 死 锁 的 办 法 是 选择 死 锁 事务 中 的 某 一 个 事务 作为 牺牲 者 
(victim) ， 然 后 将 该 事务 回 滚 〈 释 放 牺 牲 者 所 锁定 的 全 部 资源 ) 。 

一 般 说 来 ， 如 果 事 务 未 达到 完全 可 串 行 性 ， 则 不 能 保证 一 定安 全 。 但 系统 一 般 都 允许 事务 在 
某 个 实际 上 并 不 安全 的 隔离 级 别 上 运行 ， 这 样 可 以 减少 资源 的 竞争 并 提高 事务 吞吐 量 。 本 章 将 这 
样 一 个 “不 安全 ”的 级 别 描述 为 游标 稳定 性 (这 是 DB2 中 的 术语 ， 在 SQL 中 则 用 READ COM- 
MITTED 来 表示 ) 。 

接 下 来 主要 说 明 锁 粒 度 的 问题 及 相应 的 意向 锁 思 想 。 意 向 锁 的 基本 观点 是 : 事务 在 某 些 对 象 
(如 数据 库 中 的 元 组 ) 上 获得 某 种 锁 前 ， 它 必须 先 获得 在 该 对 象 的 “ 父 对 象 ” 上 的 一 个 适当 的 意 
向 锁 。 例 如 ， 对 于 一 个 元 组 ， 则 要 在 包含 该 元 组 的 关系 变量 上 获得 一 个 意向 锁 。 这 样 的 意向 锁 通 
常 以 隐 式 申请 方式 实现 ， 就 像 元 组 上 的 S 锁 和 X 锁 以 隐 式 方式 申请 一 样 。 但 是 也 应 该 提供 某 些 
意向 锁 的 显 式 锁 语 句 ， 以 允许 事务 在 必要 时 能 够 获得 较 隐 式 方式 获得 的 锁 更 强 的 锁 〈 尽 管 SQL 
标准 并 不 提供 这 样 的 机 制 ) 。 

然后 是 对 事务 的 ACID 特性 做 了 一 次 回顾 ， 包 括 这 个 范围 内 并 不 像 一 般 的 假设 那么 清晰 的 那 
些 内 容 。 本 章 最 后 概述 了 SQL 对 并 发 控制 支持 。SQL 基本 上 不 提供 任何 的 显 式 锁 能 力 ， 但 它 支 
持 多 种 隔离 级 别 ， 即 : 可 串 行 化 、 可 重复 读 、 读 已 提交 和 读 未 提交 的 等 四 种 。 这 些 不 同 的 隔离 级 
别 可 以 由 DBMS 通过 非 显 式 锁 方式 在 底层 加 以 实现 。 


习题 


16.1 用 你 自己 的 话 解释 可 串 行 化 。 
16.2 ”说明 (a) 两 阶段 封锁 协议 ; (b) 两 阶段 封锁 定理 。 准 确 的 解释 两 阶段 封锁 是 怎样 解决 RW，WR 和 
WW 冲突 的 。 
16.3 ”给 定 事务 TI1、 了 2、B， 执 行 下 列 操作 : 
7m1: 将 4 加 1; 
12: 将 4 加 倍 ; 
73: 在 屏幕 上 输出 A， 并 将 A 置 为 1， 其 中 4 为 数据 库 中 的 某 个 数据 项 。 
a) 假设 TI、72、73 可 以 并 发 执行 。 若 4 初 值 为 0， 那 么 存在 多 少 种 可 能 的 正确 结果 ? 列举 之 。 
b) 各 个 事务 的 内 部 结构 如 下 表 所 示 。 若 事务 执行 不 施加 任何 锁 ， 则 有 多 少 种 可 能 的 调度 ? 


T1 



























R1; RETRIEVE A R2: RETRIEVE A R3: RETRIEVE A 







INTO al ; INTO a2 }; INTO a3 ，; 
al := al + 1; a2 := a2 * 2， display a3 ; 
Ul; UPDATE A U2: UPDATE A U3: UPDATE A 
FROM al ; FROM a2 ; FROM 1 )， 





c) 如 果 4 的 初 值 给 定 为 0， 是 否 存在 能 够 产生 “正确 ”结果 但 不 可 串 行 化 的 交错 调度 
d) 如 果 这 三 个 事务 都 遵循 两 阶段 封锁 协议 ， 那 么 存在 事实 上 可 串 行 化 但 又 不 能 形成 的 调度 吗 ? 
16.4 下 面 给 出 的 是 一 个 调度 的 事件 序列 。 该 调度 包含 1、72、.…、T12 等 12 个 事务 ， A、B、… 、H 为 数 


据 库 中 的 数据 项 。 

time tO .i 

time tl (71) : RETRIEVE A ; 

time t2 (7T2) : RETRIEVE B ; 

so (Tl1) : RETRIEVE C ;} 

(7T4) ; RETRIEVE D ;} 
(7T5) : RETRIEVE A ; 
(T2) : RETRIEVE E ; 
(72) : UPDATE E ; 
(T3) : RETRIEVE PF ; 
{T2) : RETRIEVE F ; 


{75) : UPDATE A ; 
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16.5 


16.6 
16.7 
16.8 
16.9 
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(T1) ; COMMIT ; 
(T6) : RETRIEVE A ; 
{T5) : ROLLBACK ;} 
(T6} : RETRIEVE C ; 
{7T6) ; UPDATE C ; 
(7T7) : RETRIEVE G ; 
(T8) : RETRIEVE H ; 
(79) : RETRIEVE G ;} 
(T9) : UPDATE G ; 
(T8) : RETRIEVE E ; 
(T7) : COMMIT ; 
{7T9) : RETRIEVE H ; 
{(T3) : RETRIEVE G; 
(T10) : RETRIEVE A ; 
(79) : UPDATE HH ; 
(T6) ; COMMIT ; 
(T11) : RETRIEVE C ; 
(712) : RETRIEVE DD; 
(T12)} : RETRIEVE C ; 
(7T2) : UPDATE F ; 
(T11) : UPDATE C ; 
(T12) : RETRIEVE A ; 
(T10)} : UPDATE A ; 
(T12) : UPDATE D ，}! 
(T4) : RETRIEVE G ; 


time t36 .a 


假定 RETRIEVE i ( 如 果 成 功 ) 获得 i 上 的 一 个 S 锁 ，UPDATE i (如 果 成 功 ) 将 锁 升 级 到 X 锁 。 同 
时 假定 所 有 锁 都 保持 到 事务 结束 。 请 画 出 在 B36 时 刻 事务 的 等 待 图 (指出 谁 在 等 待 谁 )。 在 该 时 刻 存 
在 死 锁 吗 ? 

重新 考虑 图 16-1 ~ 图 16-4 中 提出 的 并 发 问题 。 如 果 所 有 事务 都 在 CS 隔离 级 别 而 不 是 RR 级 上 运行 ， 
会 发 生 什么 情况 ? (注意 : 如 16.8 节 所 示 ， 这 里 的 CS 和 RR 相当 于 DB2 中 的 隔离 级 别 。) 

分 别 给 出 锁 类 型 X、S、IX、IS 和 SIX 的 非 形式 化 和 形式 化 定义 。 

定义 相对 锁 强度 的 概念 ， 并 给 出 相应 的 前 驱 图 。 

定义 意向 锁 协 议 。 说 明 该 协议 的 意义 。 

SQL 中 定义 了 读 脏 数据 、 不 可 重复 读 和 幻影 等 三 个 并 发 问题 ， 它 们 和 16. 2 节 中 说 明 的 三 个 并 发 问题 
具有 什么 样 的 联系 ? 


16. 10 ”给 出 参考 文献 【16. 1] 中 说 明 的 多 版 本 并 发 控制 协议 的 一 个 概要 的 实现 机 制 。 
参考 文献 


除了 下 面 给 出 的 参考 文献 外 ， 还 可 以 参阅 第 15 章 中 的 [15.2] 、[15. 10] ,尤其 是 【15. 12]。 


[16.1]  R. Bayer, M. Heller,and A. Reiser: “Parallelism and Recovery in Database Systems,” ACM TODS 5, 


No. 2 (June 1980). 

第 15 章 中 提 到 ， 在 包括 硬件 和 软件 工程 在 内 的 新 兴 应 用 领域 中 经 常 要 涉及 十 分 复杂 的 处 理 
要 求 ， 而 本 章 大 部 分 及 前 几 章 所 描述 的 传统 事务 管理 控制 并 不 能 很 好 地 满足 这 些 需 求 。 其 中 一 
个 很 基本 的 问题 就 是 复杂 事务 可 能 持续 几 小 时 甚至 几 天 ， 而 不 是 传统 系统 中 所 认为 的 几 个 毫秒 ， 
从 而 导致 下 面 的 后 果 : | 

1) 将 事务 完全 回 滚 到 事务 开始 时 的 状态 可 能 导致 不 可 接受 的 大 量 工作 丢失 。 

2) 使 用 通常 的 锁 可 能 产生 不 可 接受 的 过 长 时 延 来 等 待 放 锁 。 

本 文 是 阐述 这 些 问题 的 文章 之 一 (其 他 的 文章 可 参阅 [16.8] 、 [16.12]、[16.15] 及 
[16. 20] ) 。 文 中 提出 了 多 版 本 锁 的 并 发 控制 技术 ， 或 者 叫做 多 版 本 读 技 术 。 该 技术 在 一 些 商品 
中 已 经 得 到 实现 。 该 技术 的 最 大 优点 在 于 读 操作 不 会 等 待 ， 即 任意 数量 的 读者 和 一 个 写 者 能 够 
在 同 -个 逻辑 对 象 上 同时 操作 。 尤 其 是 : 

昌 读 决 不 会 延迟 。 

@ 读 决 不 会 延迟 更 新 。 

e 完全 没有 必要 回 滚 只 读 事 务 。 

gm 死 锁 只 可 能 在 更 新 事务 之 间 发 生 。 

这 些 优 点 在 分 布 系统 ( 见 第 21 章 ) 中 尤为 明显 ， 因 为 在 分 布 系统 中 的 更 新 可 能 持续 很 长 一 
段 时 间 ， 这 时 只 读 事务 将 被 过 度 地 延迟 (反之 亦 然 ) 。 多 版 本 锁 的 基本 思想 如 下 : 
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@ 事务 B 请 求 读 一 个 对 象 时 ， 如 果 事 务 4 已 经 获得 了 在 该 对 象 上 的 更 新 存 取 路 径 ， 则 系统 
为 8 提供 该 对 象 的 一 个 已 提交 版 本 的 存 取 路 径 。 这 一 版 本 必须 作为 恢复 之 用 而 保留 在 系 
统 中 〈 如 保存 在 系统 日 志 里 ) 。 

@ 事务 B 请 求 更 新 一 个 对 象 时 ， 如 果 事 务 4 已 经 获得 了 在 该 对 象 上 的 读 存 取 路 径 ， 则 8 获 
得 该 对 象 的 存 取 路 径 。 这 时 4 仍然 指向 原来 的 对 象 版 本 (此 时 的 对 象 是 一 个 真正 的 “以 
前 版 本 ”)。 

s 事务 B 请 求 更 新 一 个 对 象 时 ， 如 果 事 务 4 已 经 获得 了 在 该 对 象 上 的 写 存 取 路 径 ， 则 8 进 
人 等 待 状态 2 (如 前 所 述 的 死 锁 和 强制 回 滚 仍 有 可 能 发 生 ) 。 

当然 ， 这 个 方法 也 包括 适当 的 控制 以 保证 每 个 事务 总 是 看 到 数据 库 的 一 致 状态 。 

[16.2] Hal Berenson er al.: “A Critique of ANSI SQL Isolation Levels,” Proc. 1995 ACM SIGMOD Int Conf. on 
Management of Data, San Jose, Calif. (May 1995). 

这 篇 论文 的 主要 内 容 是 批评 SQL 标准 用 可 串 行 性 违背 来 说 明 隔 离 级 别 的 方式 ( 见 16. 11 

节 )。 文 章 认 为 : “(SQL 的) 定义 不 能 准确 地 说 明 几 个 常见 隔离 级 别 的 特点 ， 包 括 其 中 涉及 的 
几 个 级 别 的 标准 锁 实 现 ”。 文 章 特别 指出 : 标准 不 能 防止 写 脏 数 据 ( 写 脏 数据 可 以 定义 为 两 个 事 
务 Tl1 和 72 可 能 在 两 者 终止 前 都 在 同一 行 上 执行 了 更 新 ) 。 

对 于 标准 中 没有 显 式 地 防止 写 脏 数据 这 一 点 ， 看 来 是 正确 的 。 原 文 说 明 如 下 (上 略 有 变动 ): 

@“ 保 证 可 串 行 隔离 级 别 上 的 并 发 事务 的 执行 是 可 串 行 的 " 。 或 者 说 ， 如 果 事务 都 在 可 串 行 
隔离 级 别 上 执行 ， 实 现时 必须 要 防止 写 脏 数 据 ， 因 为 写 脏 数据 必 将 违背 可 串 行 性 。 

s“ 四 个 隔离 级 别 保 证 了 …… 不 会 丢失 更 新 ” 。 这 一 说 法 只 是 一 彩 情 愿 ， 四 个 隔离 级 别 的 定 
义 本 身 并 未 提供 这 样 的 保证 ， 但 它 表 明了 标准 定义 者 试图 防止 写 脏 数据 。 

“一 个 事务 所 做 出 的 修改 直到 该 事务 以 提交 方式 结束 时 才能 被 其 他 事务 ( 读 未 提交 级 别 
的 事务 除外 ) 所 感知 ” 。 这 里 的 问题 在 于 :“ 感 知 ”的 准确 含义 是 什么 ? 事务 能 够 更 新 
个 “ 脏 数据 ”而 不 “感知 ” 它 吗 ? 

也 可 见 参考 文献 [16. 14]。 

[16.3] Philip A. Bernstein and Nathan Goodman:“Timestamp- Based Algorithms for Concurrency Control in 
Distributed Database Systems ," Proc. 6th Int. Conf on Very Large Data Bases, Montreal, Canada( Oc- 
tober 1980 ) . 

文章 讨论 了 一 组 基于 时 标 而 不 是 锁 的 并 发 控制 方法 。 基 本 思想 是 : 如 果 事务 4 在 事务 8B 之 

前 启动 执行 ， 则 系统 将 从 整体 上 把 4 视 为 在 召 启 动 前 执行 完 (就 像 一 个 真正 的 的 串 行 调 度 ) 。 它 
遵循 : 
1) 4 无 权 看 到 如 所作 的 任何 更 新 。 
2) 决 不 允许 4 更 新 任何 BB 已 经 看 到 的 对 象 。 
这 两 个 条 件 按 下 面 的 方式 实现 : 对 任何 给 定 的 数据 库 请 求 ， 系 统 将 把 请 求 事务 的 时 标 和 对 
所 请 求 元 组 进行 最 近 一 次 检索 或 更 新 的 事务 的 时 标 相 比 较 ， 如 果 发 生 冲 突 ， 则 简单 地 将 发 出 请 
求 的 事务 重新 启动 ， 并 指派 一 个 新 的 时 标 ( 即 所 谓 乐观 方法 [16. 16] ) 。 

正如 论文 标题 所 隐 含 的 那样 ， 时 标 方法 最 初 是 在 分 布 式 环境 中 引入 的 。 原 因 存 于 人 们 感到 
分 布 式 系统 中 使 用 锁 会 由 于 检测 消息 、 设 置 时 钟 等 原因 而 产生 不 可 忍受 的 系统 开销 。 当 然 ， 在 
一 个 非 分 布 式 系统 中 它 并 不 合适 。 事 实 上 它 在 分 布 式 系 统 中 的 可 行 性 仍然 值得 怀疑 。 一 个 明显 
的 问题 是 ， 每 个 元 组 必须 保留 最 近 检索 (或 更 新 ) 过 它 的 事务 的 时 标 ， 这 是 指 每 一 个 读 转 变 为 
一 个 写 操作 ! 事实 上 ， 参 考 文献 【15. 12] 中 已 经 指出 : 时 标 机 制 恰恰 是 【16. 16] 中 的 乐观 并 
发 控制 模式 的 一 个 退化 方案 ， 而 乐观 控制 模式 本 身 也 有 问题 。 

注意 : 在 数据 库 领 域内 广泛 讨论 过 的 一 个 概念 一 一 “托马斯 写 规则 ” (Thomas's write mule ) 
[16. 22] ， 实 际 上 是 前 面 机 制 的 一 个 精炼 。 它 基于 这 样 一 个 事实 ， 有 些 更 新 因为 是 陈旧 的 《用 户 
级 的 请 求 被 满足 但 是 并 没有 物理 上 的 更 新 ) ， 所 以 可 以 被 忽略 。 

[16.4] M.W. Blasgen, I. N. Gray ，M. Mitoma ,and T. G. Price: “The Convoy Phenomenon,” ACM Operating 
Systems Review 13, No.2( April 1979). 

护航 现象 (convoy phenomenon) 是 抢占 式 调 度 系统 中 使 用 高 流量 (high- traffic) 锁 时 所 遇 





他 ”换言之 ，WW 冲突 仍然 可 能 发 生 ， 这 里 我 们 假设 使 用 封锁 来 解决 ， 而 其 他 的 技术 (例如 时 标 [16.3]) 也 同样 
可 行 。 
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[16.5] 


[16.6] 


[16.7] 


[16.8] 


{16.9] 


[16. 10] 


形 四 六 分 事 条 党 理 


到 的 问题 。 例 如 ， 向 日 志 中 写 记录 时 所 需要 的 锁 就 是 一 个 高 流量 锁 。 注 意 ， 这 里 的 “调度 ”是 
指 为 事务 分 配 机 器 周期 的 问题 ， 而 不 是 本 章 中 主要 讨论 的 不 同事 务 的 数据 库 操 作 的 交叉 问题 。 
问题 如 下 : 如 果 事务 了 正 持 有 一 个 高 流量 锁 且 这 时 被 系统 调度 器 所 强占 ， 如 可 能 因 时 间 片 到 期 
而 被 强制 进入 等 待 状态 ， 那 么 系统 将 为 那些 等 待 获得 高 流量 锁 的 事务 形成 一 个 护航 。 当 了 离开 
等 待 状态 时 ， 它 将 很 快 释放 该 高 流量 锁 ， 但 由 于 该 锁 是 高 流量 的 ，7 本 身 也 可 能 在 下 - -个 事务 未 
用 完 资源 前 而 加 入 到 护航 中 ， 因 此 不 能 继续 处 理 下 去 ， 从 而 又 进入 一 个 等 待 状态 。 问 题 的 本 质 
在 于 : 大 多 数 情况 下 (而 非 全 部 ) ， 调 度 器 是 底层 OS 而 不 是 DBMS 的 一 部 分 ， 因 此 它 是 基于 男 
外 一 个 不 同 的 假设 来 设计 的 。 作 者 观察 到 : 一 旦 建立 护航 ,， 它 将 趋 于 稳定 ; 系统 将 处 于 一 个 
“ 锁 颠 敏 ” 状 态 ， 这 时 大 部 分 机 器 周期 都 用 于 处 理 切 换 而 未 做 什么 有 意义 的 工作 。 一 个 不 替换 调 
度 器 的 建议 方案 是 将 锁 的 授权 方式 不 再 基于 “ 先 来 先 服务 ”的 原则 ， 而 采用 随机 方式 。 

Stephen Blott and Henry F. Korth:“ An Almost-Serial Protocol for Transaction Execution in Main- Mem- 
ory Database Systems,” Proc. 28th Int. Conf on Very Large Data Bases ,Hong Kong( August 2002 ) . 

本 文 为 主 存 系统 (main-memory system) 提出 了 一 种 完全 不 用 锁 的 可 串 行 化 机 制 。 

K. P. Eswaran, J. N. Gray, R. A. Lorie and 1.L. Traiger: “The Notions of Consistency and Predicate 
Locks in a Data Base System,” CACM 19,No. 11( November 1976). 

该 文 首次 将 并 发 控制 这 一 课题 建立 在 一 个 合理 的 理论 之 上 。 

Peter Franaszek, and John T. Robinson: “Limitations on Concurrency in Transaction Processing,” ACM 
TODS 10, No. 1(March 1985 ) . 

见 参考 文献 【16. 14] 中 的 说 明 。 

Peter A. Franaszek ，John T. Robinson, and Alexander Thomasian: “ Concurrency Control for High 
Contention Environments,” ACM TODS 17, No. 2( June 1992). 

该 文 指出 ， 因 为 各 种 原因 ， 未 来 的 事务 处 理 系统 所 面临 的 并 发 度 情况 可 能 大 大 超出 目前 系 
统 所 支持 的 并 发 度 ， 因 此 在 这 些 系统 中 可 能 发 生 大 量 的 数据 竞争 。 作 者 随 之 提出 了“ 大量 非 锁 
并 发 控制 概念 和 可 用 于 高 竞争 环境 中 的 事务 调度 技术 ”。 据 称 这 些 技 术 是 基于 使 用 了 模拟 模型 的 
实验 的 ， 并 能 够 在 这 些 环境 中 “ 带 来 实质 性 好 处 ”。 

J. N. Gray: “ Experience with the System R Lock Manager,” IBM San Jose Research Laboratory internal 
memo (Spring 1980 ) . 

本 文 实际 上 只 是 一 些 注释 性 说 明 ， 而 不 是 一 篇 完整 的 论文 ， 其 中 的 某 些 思想 如 今 可 能 有 些 
过 时 了 ， 但 它 也 包括 了 一 些 有 趣 的 话题 ， 如 : 

对 锁 在 联机 事务 中 带 来 10% 的 代价 ， 而 在 批 处 理事 务 中 只 占 1% 。 

和 支持 多 种 锁 粒度 是 值得 的 。 

@ 自动 锁 升级 能 够 很 好 地 工作 。 

am 可 重复 读 (RR) 比 游标 稳定 性 (CS) 有 效 也 更 安全 。 

e 实际 情况 中 的 死 锁 很 少 发 生 且 决 不 会 超过 两 个 事务 。 

@ 几乎 所 有 的 死 锁 (超过 97% ) 能 够 通过 支持 U 锁 避免 。U 锁 在 DB2 中 得 到 支持 而 系统 民 

则 不 支持 。 

注意 ; U 锁定 义 为 与 $ 锁 兼 容 而 不 能 和 U 锁 兼 容 ， 当 然 也 不 能 和 X 锁 兼容 。 细 节 可 参阅 参 
考 文献 [4.21] 。 

J.N. Gray, R. A. Lorie and G. R. Putzolu: “ Granularity of Locks in a Large Shared Data Base,” 
Proc. 1st Int. Conf on Very Large Data Bases, Framingham, Mass. (September 1975 ) . 

这 篇 论文 引入 了 意向 锁 概 念 。 和 16. 9 中 的 解释 一 样 ， 术 语 “粒度 ”是 指 能 够 被 锁定 的 对 
象 的 大 小 。 由 于 不 同事 务 显然 具有 不 同 的 特点 和 不 同 的 要 求 ， 系 统 提供 某 个 范围 内 的 多 种 不 同 
的 锁 粒 度 是 值得 的 ， 而 且 大 多 数 实际 系统 也 是 这 样 做 的 。 这 篇 文章 给 出 了 基于 意向 锁 的 多 粒度 
系统 的 一 种 实现 机 制 。 

由 于 本 章 中 给 出 的 解释 显然 有 些 简单 ， 因 此 这 里 将 给 出 关于 意向 锁 协 议 的 较 详细 的 说 明 。 
首先 ， 像 前 面 假设 的 那样 ， 可 加 锁 对 象 类 型 不 仅 限 于 关系 变量 或 元 组 。 其 次 ， 这 些 锁 对 象 甚至 
不 必 形 成 一 个 严格 的 层次 ; 索引 和 其 他 存 取 结构 的 表现 方式 意味 着 它们 应 被 视 作 有 向 无 环 图 
DAG。 例如 ， 供 应 商 和 零件 数据 库 可 能 包含 零件 关系 变量 P (的 某 种 存储 形式 ) 和 一 个 建立 在 
P# 属 性 上 的 索引 XP。 如 果 要 获得 关系 变量 P 中 的 元 组 ， 则 必须 先 启动 整个 数据 库 ， 然 后 要 么 直 
接 在 关系 变量 中 顺序 扫描 ， 要 么 先进 入 XP， 然 后 再 找到 所 需 的 元 组 。 这 样 在 相应 的 DAG 中 P 
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有 两 个 “ 父 对 象 "，P 和 XP， 而 这 两 个 对 象 都 以 数据 库 作为 它 的 “ 父 对 象 ”。 
下 面 给 出 协议 的 一 般 形式 。 
we 获得 指定 对 象 上 的 X 锁 时 ， 隐 式 获 得 该 对 象 的 所 有 子 对 象 上 的 X 锁 。 
ae 获得 指定 对 象 上 的 S 或 SIX 锁 时 ， 隐 式 获 得 该 对 象 的 所 有 子 对 象 上 的 S 锁 。 
se 在 事务 获得 指定 对 象 上 的 S 或 IS 锁 前 ， 它 必须 先 获得 该 对 象 至 少 一 个 父 对 象 上 的 1S 


(或 更 强 的 ) 锁 。 
m 在 事务 获得 指定 对 象 上 的 X、IX 或 SIX 锁 前 ， 它 必须 先 获得 该 对 象 的 所 有 父 对 象 上 的 
IX (或 更 强 的 ) 锁 。 
s 在 事务 能 释放 某 个 指定 对 象 上 的 一 个 锁 前 ， 它 必须 先 释放 掉 它 在 所 有 子 对 象 上 保持 的 
锁 。 


在 实际 应 用 中 ， 该 协议 不 会 产生 想像 中 那样 的 系统 开销 。 原 因 在 于 在 任何 给 定时 刻 ， 事 务 
可 能 已 经 获得 了 所 需 的 大 多 数 锁 。 例 如 ， 在 整个 数据 库 上 的 一 个 IX 锁 可 能 只 需要 在 程序 初始 启 
动 时 申请 ， 然 后 该 锁 在 程序 的 这 个 生存 期 内 的 所 有 事务 中 得 到 保持 。 
[16.11] J.N.Gray, R.A.Lorie, G.R. Putzolu and I. L. Traiger: “Granularity of Locks and Degrees of Consis- 
tency in a Shared Data Base,” in G. M. Nijssen( ed ), Proc. IFIP TC-2 Working Conf on Modelling in 
Data Base Management Systems. Amsterdam, Netherlands: North- Holland/New York, N. Y. : Elsevi- 
er Science (1976). 
这 篇 论文 介绍 了 隔离 级 别 的 概念 (在 一 致 性 程度 (degree of consistency) 的 名 义 下 ” ) 。 
[16.12] Theo Hirder and Kurt Rothermel. “Concurrency Control Issues in Nested Transactions,” The VLDB 
Journal 2, No. 1 (January 1993). 
在 第 14 章 中 提 到 ， 有 些 作者 给 出 了 关于 似 套 事务 思想 的 建议 。 这 篇 文章 提出 了 适用 于 这 
些 事务 的 一 套 较 为 恰当 的 锁 协 议 。 
{16.13] J.R. Jordan J. Banerjee, and R B. Batman :“Precision Locks,” Proc. 1981 ACM SIGMOD Int Conf on 
Management of Data, Ann Arbor, Mich. ( April/ May 1981 ) . 
精确 锁 是 一 种 元 组 级 的 锁 模 式 ， 它 保证 了 只 有 那些 需要 加 锁 的 元 组 才 被 真正 锁定 以 满足 可 
串 行 性 ， 这 些 锁 定 元 组 也 包括 幻影 。 它 实际 上 是 谓词 锁 的 一 种 形式 (参考 16.8 节 及 参考 文献 
[16.6] ) 。 它 的 工作 机 制 是 : (a) 检查 更 新 请 求 ， 看 要 插 人 的 元 组 是 否 满足 其 他 并 发 事务 较 早 
发 出 的 检索 请 求 ; (b) 检查 检索 请 求 ， 看 其 他 并 发 事务 已 经 插 人 或 删除 的 元 组 是 否 满足 查询 中 
的 检索 请 求 。 该 模式 不 但 精巧 ， 而 且 作 者 同时 还 声称 它 实际 上 也 比 传统 技术 (一般 有 太 多 的 
锁 ) 运行 得 更 好 。 
[16.14] Tim Kempster, Colin Stirling, and Peter Thanisch:“ Diluting ACID,” ACM SIGMOD Record 28 ,No. 4 
( December 1999 ) . 
这 篇 文章 的 题目 取 “Concentrating ACID” 更 加 合适 ! 它 声明 : 传统 的 并 发 控制 机 制 排除 了 
某 些 可 串 行 化 的 调度 (“ 对 于 可 串 行 性 来 说 ， 隔 离 确实 是 一 个 充分 但 不 必要 的 条 件 ”) 。 就 像 在 
SQL 标准 和 文献 [16.2] 中 一 样 ， 它 根据 违背 可 串 行 性 的 情况 定义 了 隔离 级 别 ; 但 是 ， 它 的 定 
义 比 以 前 那些 更 加 精致 ， 并 且 容 纳 更 多 的 可 串 行 化 调度 。 文 章 同 时 还 演示 了 文献 【16.2] 的 一 
个 缺陷 (与 幻影 有 关 ) 。 
[16.15] ”Henry F. Korth and Greg Speegle: “Formal Aspects of Concurrency Control in Long-Duration Transac- 
tion Systems Using the NT/PV Model, "4CM TODS 19, No. 3 (September 1994). 
正如 参考 文献 [15.3] 、[15.9] 、[15.16] 和 [15.17] 中 所 说 明 的 ， 可 申 行 性 通常 要 求 
较 严格 的 条 件 而 无 法 在 某 些 系 统 中 实施 。 尤 其 在 涉及 人 机 交互 和 长 周期 事务 的 新 兴 应 用 领域 中 
更 是 如 此 。 这 篇 文章 提出 了 一 个 叫做 NT/PV ( 带 谓词 和 视图 的 嵌 套 事务 ) 的 事务 模型 来 阐述 这 
些 问 题 。 此 外 ， 文 章 提 出 : 县 有 可 串 行 性 的 标准 事务 模型 只 是 一 个 特例 。 文 中 定义 了 “新 的 且 
更 具 意 义 的 正确 性 类 ”， 并 声称 新 的 模型 提供 了 “一 个 可 解决 长 周期 事务 问题 的 合理 的 框架 ”。 
[16.16] H.T. Kung and John T Robinson: “On Optimistic Methods for Concurrency Control,” ACM TODS 6， 
No. 2 (June 1981). 





名” 不 是 名 字 的 问题 ! 数据 可 能 是 一 致 的 ， 也 可 能 不 是 。 因 此 一 致 性 “程度 ”的 概念 是 有 待 商 讨 的 。 事 实 上 ， 在 我 
们 对 数据 完整 性 〈 或 一 致 性 ) 的 基础 的 重要 性 有 一 个 明确 的 认识 之 前 , “一 致 性 程度 ”背后 的 理论 已 经 发 展 起 
来 了 。 
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[16.17] 


[16. 18] 


[16. 19] 


[16. 20] 


[16.21] 


[16. 22] 


[16. 23] 
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锁 模 型 可 以 采用 悲观 模式 。 这 时 ， 锁 采用 了 最 坏 情况 假设 ， 即 某 指定 事务 所 存 取 的 每 个 数 
据 都 可 能 被 其 他 的 并 发 事务 所 申请 ， 因 此 最 好 加 以 锁定 。 对 应 的 ， 乐 观 模 式 (也 可 称 做 认证 或 
校 验 模式 ) 则 采用 了 相反 的 假设 ， 它 认为 冲突 实际 上 很 少 发 生 。 因 此 ， 乐 观 模 式 允 许 事 务 毫 无 
阻碍 地 运行 到 结束 。 然 后 在 提交 时 检查 是 否 真 的 发 生 了 冲突 ， 如 果 有 ， 则 将 不 合理 的 事务 简单 
地 重新 启动 。 在 提交 处 理 成 功 完成 前 ， 不 能 将 任何 更 新 写 和 数据库 中 ， 这 样 ， 重 启事 务 时 不 需 
要 对 任何 更 新 进行 UNDO 处 理 。 

在 随后 的 论文 [16.7] 中 ,作者 提出 : 在 某 些 合理 假设 下 ， 乐 观 方法 在 所 支持 的 并 发 度 
(以 同时 执行 的 事务 数目 计 ) 期 望 级 别 上 比 传统 锁 方法 具有 某 些 固有 的 优点 。 这 意味 着 在 拥有 
大 量 并 行 处 理 器 的 系统 中 ， 乐 观 方法 可 能 更 值得 选择 (但 参考 文献 [15. 12] 却 认为 乐观 方法 
在 “热点 ”条 件 下 一 般 比 锁 方法 更 糟 。 热 点 是 指 被 多 个 事务 频繁 更 新 的 数据 项 。 对 于 在 热点 上 
工作 得 较 好 的 技术 的 讨论 可 参见 参考 文献 [16. 17] ) 。 
Patrick E. O'Neil:. “The Escrow Transactional Method,” ACM TODS 11, No. 4 (December 1986). 

考虑 下 面 的 简单 例子 。 设 数据 库 中 的 数据 项 TC 表示 “目前 总 现金 数 " ， 并 假设 系统 中 几乎 
所 有 事务 都 从 TC 中 减少 一 定数 量 (或 者 叫 提取 现金 ) 来 更 新 TC， 则 TC 是 一 个 “热点 ”的 例 
子 ， 也 就 是 说 ， 当 数据 库 中 的 数据 项 被 系统 中 运行 的 很 大 比例 的 事务 所 存 取 时 ， 它 被 称 作 “ 热 
点 ”。 在 传统 锁 下 ， 热 点 很 快 成 为 一 个 “瓶颈 ”。 因 此 ， 对 TC 这 样 的 数据 项 使 用 传统 锁 就 显得 
强度 太 大 。 如 果 TC 初始 值 为 一 千 万 美元 ， 而 每 个 事务 平均 只 减 去 十 美元 ， 则 可 以 执行 约 一 百 
万 个 这 样 的 事务 ， 这 样 在 出 现 问题 前 可 以 按 任 意 次 序 进行 一 百 万 次 相应 的 缩减 。 对 于 TC 而 言 ， 
不 再 需要 传统 锁 ， 以 只 要 确保 当前 值 足以 允许 所 需 的 减少 量 代 之 来 进行 更 新 ( 如 果 随 后 事务 失 
败 了 ， 则 将 减 去 的 数量 加 回去 ) 。 

ESCROW 方法 适用 前 面 所 描述 的 情况 ， 在 这 种 情况 下 ， 更 新 是 一 种 特殊 形式 ， 可 以 是 完全 
随意 的 。 系 统 必须 提供 一 种 新 的 更 新 语句 (如 “ 减 去 x， 当 且 仅 当当 前 值 大 于 y”)。 该 语句 通 
过 将 减少 量 放 入 “约定 (escrow)” 中 执行 更 新 ,在 事务 结束 时 将 该 语句 从 “约定 ”中 取出 
( 如果 事 务 以 COMMIT 结束 ， 则 提交 修改 ; 否则 ， 在 以 ROLLBACK 结束 时 ， 则 将 各 数量 放 回 
原 处 ) 。 

论文 中 描述 了 可 使 用 ESCROW 方法 的 大 量 示例 。IBM 的 IMS Fast Path Version 支持 该 技 
术 。 这 一 技术 可 以 作为 [16. 16] 中 的 乐观 并 发 控制 的 一 个 特例 (但 需 注意 ， 对 提供 特殊 更 新 
语句 这 一 “特殊 ”特点 是 有 争议 的 ) 。 

Christos Papadimitriou: The Theory of Database Concurrency Control. Rockville, Md. : Computer Sci- 
ence Press (1986). 

侧重 于 形式 化 理论 的 一 本 教科 书 。 

Daniel J. Rosencrantz, Richard E. Stearns, and Philip M. Lewis H : ”System Level Concurrency Con- 
trol for Distributed Database Systems,” ACM TODS 3,No.2( June 1978). 

Kenneth Salem, Hector Garcia- Molina and Jeannie Shands:; “ Altruistic Locking,” ACM TODS 19, 
No. 1 (March 1994). 

给 出 了 一 个 两 段 锁 的 扩展 协议 。 基 于 该 扩展 协议 ， 如 果 事 务 4 已 经 用 完 某 些 锁定 的 数据 但 
根据 2PL 协议 又 不 能 释放 数据 上 的 锁 时 ，4 可 以 将 数据 “捐献 ”给 系统 ， 进 而 允许 其 他 事务 获 
得 在 这 些 数 据 上 的 锁 。 这 时 称 B“ 跟 随 ”(in the wake of) 4， 而 所 定义 的 协议 用 来 阻止 一 个 事 
务 看 到 它 的 跟随 事务 所 做 的 任何 更 新 。 利 他 锁 (该 术语 源 于 “捐献 ”数据 而 使 其 他 事务 受益 ， 
而 不 是 捐献 者 事务 ) 能 够 提供 较 常 规 2PL 更 大 的 并 发 度 。 

Abraham Silberschatz, Henry F. Korth, and S. Sudarshan: Database System Concepts( 4th ed. ). New 
York, N. Y. : McGraw- Hili(2002). 

这 本 关于 数据 库 管理 的 课本 有 对 于 事务 管理 问题 的 精彩 描述 (包括 恢复 和 并 发 ) 。 

Robert H. Thomas:.“ A Majority Consensus Approach to Concurrency Control for Multiple Copy Data- 
bases,” ACM TODS 4, No.2( June 1979). 

请 见 参考 文献 [16. 3] 的 注解 。 

Alexander Thomasian:” Concurrency Control: Methods, Performance, and Analysis,” ACM Comp. 
Surv. 30, No. 1 (March 1998 ) . 
对 大 量 并 发 控制 的 不 同 的 算法 的 性 能 进行 了 细致 的 研究 。 





第 五 部 分 高 级 专题 


在 本 书 第 二 部 分 我 们 曾 说 过 ， 关 系 模型 是 现代 数据 库 技术 的 基础 。 该 部 分 所 介绍 的 内 容 基 本 
仅 限于 基础 范畴 。 但 是 除了 第 二 部 分 介绍 的 关系 模式 的 内 容 以 外 ， 数 据 库 技术 还 有 很 多 其 他 的 内 
容 。 对 于 学 习 数 据 库 的 学 生 和 专业 人 员 ， 要 想 充 分 掌握 数据 库 这 门 学科 ， 还 有 很 多 知识 需要 学 习 
( 接 下 来 从 第 三 、 四 部 分 的 讨论 将 明确 看 出 这 一 点 ) 。 下 面 我 们 将 进一步 讨论 教 据 库 领域 的 高 级 
专题 。 这 些 内 容 包括 : 

于 安全 性 (第 17 章 ) 

优化 (第 18 章 ) 

a 信息 空 筷 (第 19 章 ) 

日 类 型 继承 〈 第 20 章 ) 

里 分 布 式 数据 库 〈 第 21 章 ) 

a 决策 支持 《第 22 章 ) 

于 时 态 数据 库 〈 第 23 章 ) 

四 基于 逻辑 的 数据 库 〔 第 24 章 ) 

以 上 内 容 的 次 序 并 无 定 规 ， 读 者 也 可 以 有 选择 地 阅读 。 





第 17 章 安全 性 


17.1 引言 


数据 安全 性 问题 常 与 数据 完整 性 问题 混淆 ， 但 是 实际 上 这 两 个 概念 是 不 同 的 。 安 全 性 用 于 保 
护 数据 以 防止 不 合法 的 使 用 ; 完整 性 则 与 数据 的 正确 性 相关 。2 通俗 地 讲 : 
em 安全 性 (security) 保护 数据 以 防止 不 合法 用 户 故 意 造成 的 破坏 。 
a 完整 性 (integrity) 保护 数据 以 防止 合法 用 户 无 意 中 造 成 的 破坏 。 
换言之 就 是 : 安全 性 确保 用 户 被 允许 做 其 想 做 的 事情 ; 完整 性 确保 用 户 所 做 的 生 二 是 于 傅 的 。 
当然 这 两 个 概念 也 有 相似 点 : 系统 应 对 用 户 不 能 违背 的 约束 了 如 指 掌 ; 这 些 约 来 必须 用 合适 
的 语言 给 出 (通常 由 DBA 指定 ) ， 而 且 必 须 通 过 系统 目录 进行 维护 ; DBMS 必须 监控 用 户 的 操 
作 以 确定 约束 发 挥 了 效用 。 在 本 章 中 ， 我们 专门 讨论 安全 性 问题 (完整 性 已 在 第 9 章 以 及 其 他 
章节 进行 了 详细 讨论 )。 注 意 : 将 这 两 个 概念 分 两 章 讨 论 的 主要 原因 在 于 : 我 们 认为 完整 性 是 很 
基本 的 概念 ， 而 安全 性 是 第 二 位 的 问题 ， 尽 管 它 也 有 着 非常 重要 而 实际 的 价值 (尤其 是 在 日 前 
因特网 大 量 接 入 、 电 子 商务 广泛 应 用 以 及 一 些 类 似 的 情况 下 ， 安 全 性 问题 显得 更 加 重要 )。 
安全 性 问题 涉及 许多 方面 ， 如 : 
9 法 律 、 社 会 以 及 道德 问题 (例如 : 请求 者 对 其 请 求 的 信息 是 否 具 有 合法 权利 ?) ; 
物理 控制 (例如 : 计算 机 或 终端 所 在 房间 是 否 上 锁 或 受到 保护 ?) ; 
和 政策 问题 (例如 : 拥有 系统 的 企业 如 何 控制 使 用 者 对 数据 的 存 取 ?) ; 
s 可 操作 性 问题 (例如: 如 果 某 个 密码 方案 被 采用 ， 密 码 自身 又 如 何 保密 ? 每 隔 多 久 要 更 
换 密 码 ? ) ; 
a 硬件 控制 (例如 : 处 理 单元 是 否 具 备 安全 特性 ， 如 存储 保护 键 或 保护 操作 模式 ?) ; 
s 操作 系统 支持 (例如 : 底层 操作 系统 在 退出 时 是 否 抹 去 了 主 存 和 磁盘 上 的 内 容 ? 对 日 志 
恢复 又 如 何 呢 ? ) ; 
最 后 还 包括 : 
sa 数据 库 系统 需 专门 考虑 的 问题 (例如: 数据 库 系统 是 否 具 有 数据 所 有 权 的 概念 ?) 。 
在 本 章 中 的 绝 大 部 分 我 们 将 只 就 上 述 的 最 后 一 类 问题 展开 讨论 。 
现代 的 DBMS 通常 采用 自主 存 取 控制 和 强制 存 取 控制 这 两 种 方法 来 解决 安全 性 问题 ， 有 的 
只 提供 其 中 的 一 种 方法 ， 有 的 两 种 都 提供 。 无 论 采用 哪 种 存 取 控制 方法 ， 需 要 保护 的 数据 单元 或 
数据 对 象 包括 从 整个 数据 库 到 某 个 元 组 的 某 个 部 分 。 两 者 的 区 别 为 : 
m 在 自主 存 取 控 制 方法 (discretionary control) 中 ， 用 户 对 不 同 的 数据 对 象 具有 不 同 的 存 取 
权限 (也 称 为 优先 权 ) ， 而 且 没 有 固定 的 关于 哪些 用 户 对 哪些 数据 对 象 具 有 哪些 存 取 权限 
的 限制 (例如 用 户 U1 能 看 到 4 但 看 不 到 8， 而 用 户 U02 能 看 到 B 但 看 不 到 4) 。 因 此 自 
主 存 取 控制 非常 灵活 。 
s 在 强制 存 取 控 制 方法 (mandatory control) 中 ， 每 一 个 数据 对 象 被 标 以 一 定 的 密级 (classi- 
fication level) ， 每 一 个 用 户 也 被 授予 一 个 许可 证 级 别 (clearance level) 。 对 于 任意 一 个 对 
象 ， 只 有 县 有 合法 许可 证 的 用 户 才 可 以 存 取 。 因 此 ， 强 制 存 取 控 制 本 质 上 具有 分 层 特 点 ， 
且 相 对 比较 严格 (例如: 如 果 用 户 U1 能 看 到 4 但 看 不 到 8B， 这 说 明 B 的 密级 高 于 4， 因 
此 不 存在 用 户 U2 能 看 到 B 但 看 不 到 4)。 
我 们 将 在 17.2 节 讨 论 自主 存 取 控制 ， 在 17.3 节 讨 论 强制 存 取 控 制 。 
不 管 我 们 采用 的 是 自主 存 取 控制 方法 还 是 强制 存 取 控制 方法 ， 所 有 有 关 哪 些 用 户 可 对 哪些 数 
据 对 象 进行 操作 的 决定 都 是 政策 决定 ， 而 非 技 术 问题 。 这 显然 超出 了 DBMS 的 权限 ，DBMS 只 





”请 参考 第 9 章 的 内 容 来 理解 所 谓 “ 正 确 性 ”的 含义 。 
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是 实施 这 些 决 定 。 这 就 要 求 : 

对 政策 决定 的 结果 (a) 需 为 系统 所 知 (这 可 通过 使 用 某 种 合适 的 语言 定义 安全 性 约束 条 件 
( security constraints) 来 实现 ); (b) 需 被 系统 记 住 (这 可 通过 将 那些 约束 条 件 保存 在 目 
录 中 实现 ) 。 

m 必须 采用 一 定 的 方式 检查 存 取 请 求 是 否 违背 目录 中 适用 的 安全 性 约束 (通常 用 “ 存 取 请 
求 ”表示 涉及 的 请 求 操作 、 请 求 对 象 以 及 请 求 用 户 ) ， 这 主要 通过 DBMS 的 安全 性 子 系统 
(security subsystem) 或 者 授权 子 系统 (authorization subsystem) 实现 。 

e 为 了 决定 哪些 安全 性 约束 适用 于 给 定 的 存 取 请 求 ， 系 统 必须 能 识别 请 求 的 来 源 ， 也 就 是 请 
求 用 户 。 因 此 ， 当 用 户 登 录 系 统 时 必须 给 出 用 户 ID 以 及 口令 (password)。 口 令 只 能 为 系 
统 和 拥有 该 用 户 ID 的 合法 用 户 所 知 。 密 码 验证 的 过 程 ， 也 就 是 检查 用 户 是 不 是 他 所 提供 
ID 的 真正 所 有 者 这 一 过 程 ， 被 称 作 身份 鉴定 (authentication ) 。 注 意 : 这 里 顺便 提 一 下 ， 
目前 可 用 的 其 他 鉴定 技术 要 比 简单 的 密码 验证 复杂 得 多 ， 其 中 包括 一 系列 的 生物 设备 ， 如 
指纹 阅读 器 、 视 网 膜 扫描 仪 、 手 形 机 、 语 音 识别 器 、 签 字 识 别 器 等 。 这 些 设备 都 可 以 有 效 
地 被 用 于 验证 “没有 人 能 够 窃取 的 个 人 身份 特征 ”[17.6] 。 

关于 用 户 ID ， 请 注意 一 定数 量 的 不 同 用 户 可 能 共享 同一 站。 这 种 情况 下 系统 支持 用 户 组 

(user group) ， 并 允许 组 内 每 一 用 户 共 享 对 同一 数据 对 象 的 相同 存 取 权 限 。 将 用 户 加 入 用 户 组 以 
及 将 用 户 从 用 户 组 删除 的 操作 应 与 指定 用 户 组 对 哪些 数据 对 象 拥有 哪些 权限 的 操作 分 离 。 参 考 文 
献 [17. 11] 描述 了 一 个 用 户 组 符 套 的 系统 ， 并 提 到 “将 用 户 分 成 有 层次 的 用 户 组 ， 提 供 了 强 有 
力 的 管理 有 着 大 量 用 户 以 及 数据 对 象 的 大 型 系统 的 工具 ”。 但 是 注意 用 于 维护 用 户 组 内 有 哪些 用 
户 的 记录 所 在 的 最 佳 位 置 还 是 系统 目录 (或 为 数据 库 自 身 )， 并 且 这 些 记录 本 身 也 受 限于 某 些 安 
全 控制 。 


17.2 自主 存 取 控 制 


上 一 节 已 提 到 ， 大 多 数 DBMS 采用 自主 存 取 控制 和 强制 存 取 控制 这 两 种 方法 中 的 任意 一 种 ， 
或 两 者 都 采用 。 准 确 地 说 ， 大 多 数 系 统 应 该 支持 自主 存 取 控 制 ， 有 些 系统 同时 支持 强制 存 取 控 
制 ; 实际 系统 中 支持 最 多 的 是 自主 存 取 控制 ， 因 此 我 们 首先 对 其 进行 讨论 。 

前 面 已 经 提 到 ， 需 要 支持 (自主 ) 安全 性 约束 定义 的 语言 ， 显 然 ， 说 明 人 允许 的 内 容 要 比 禁 
止 的 内 容 容 易 ， 因 此 定义 语言 通常 支持 的 不 是 安全 性 约束 的 定义 ， 而 是 有 关 授 权 (authority) 的 
定义 (授权 实际 上 就 是 约束 的 对 立 面 ， 即 一 旦 被 授权 ， 就 不 允许 施 以 约束 ) 。 我 们 首先 介绍 一 种 
定义 授权 的 语言 。” 下面 是 一 简单 的 例子 : 

AUTHORITY SA3 

GRANT RETRIEVE { S#, SNAME, CITY }, DELETE 


ON S 
TO Jim，Fred，Mary }; 


该 例子 说 明了 授权 包括 四 个 重要 的 部 分 : 
1) 名 字 (例子 中 为 SA3) ， 授 权 将 以 该 名 字 登 记 到 目录 。 
2) 一 种 或 多 种 权限 (例子 中 为 RETRIEVE 一 一 仅 在 某 些 属性 上 ， 以 及 DELETE) ， 通 过 
GRANT 子 句 指定 。 
、3) 关系 变量 是 授权 施 以 的 数据 对 象 ， 由 ON 子 句 指定 。 
“4) 一 组 用 户 (准确 地 说 应 该 是 用 户 ID) 对 指定 的 关系 变量 拥有 指定 的 权限 ， 由 TO 子 句 指定 。 
该 语句 的 语法 如 下 : 
AUTHORITY <authority name> 
GRANT <privilege commalist> 


ON <relvar name> 
TO <user ID commalist> ; 





”在 参考 文献 [3.3] 中 所 定义 的 语言 Tutorial D 并 不 包括 任何 对 授权 定义 的 措施 ， 本 节 假 定 的 语言 可 署 作 反 应 了 
Tutorial D 的 精华 。 
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解释 < authority name > 、< relvar name > 和 < user ID commalist > 不 言 自 明 ，ALL 作为 合 
法 “用 户 ID”， 指 所 有 的 用 户 。 < privilege > 如 下 : 


RETRIEVE { { <attribute name commalist> } ] 


INSERT [ { <attribute name commalist> } | 
DELETE 

UPDATE [ { <attribute name commalist> } 1 
ALL 


RETRIEVE (无 限制 ) 、INSERT (无 限制 )、DELETE 以 及 UPDATE (无 限制 ) 无 须 加 以 说 
明 (也 许 还 是 要 解释 一 句 ， 对 于 RETRIEVE 权限 除了 要 提 及 查询 操作 本 身 之 外 ， 某 些 情况 下 如 
在 一 个 视图 定义 或 完整 性 约束 中 ， 还 需要 提 及 相关 的 对 象 ) 。 如 果 RETRIEVE 有 属性 名 列表 ， 则 
说 明 RETRIEVE 权限 只 适用 于 指定 的 属性 ，INSERT、UPDATE 也 具有 类 似 的 含义 。ALL 意味 着 
所 有 权限 : RETRIEVE (所 有 属性 ) 、INSERT (所 有 属性 ) 、UPDATE (所 有 属性 ) 以 及 DE- 
LETE。 注 意 : 为 简便 起 见 ， 在 此 我 们 没有 讨论 是 否 需 要 特权 以 执行 一 般 的 关系 分 配 操作 ， 另 外 
我 们 讨论 的 范围 也 局 限 在 数据 操纵 ( data manipulation) 操作 上 。 实 际 上 ， 合 法 权 检查 机 制 还 要 
检查 许多 其 他 的 操作 ， 如 定义 与 删除 关系 变量 的 操作 ， 定 义 与 删除 授权 自身 的 操作 ， 等 等 。 限 于 
篇 幅 ， 我 们 省 略 了 对 这 些 操作 所 做 的 细致 讨论 。 

如 果 用 户 尝试 对 某 一 数据 对 象 进行 某 种 操作 ， 但 不 具有 访问 权限 ， 将 会 出 现 怎样 的 情形 呢 ? 
最 简单 的 反应 显然 是 拒绝 该 尝试 〈 当然 还 应 给 出 合适 的 诊断 信息 ) ， 这 是 实际 系统 中 最 基本 的 要 
求 ， 所 以 我 们 不 妨 将 之 作为 默认 处 理 。 在 更 多 敏感 的 情形 下 ， 其 他 的 一 些 反 应 可 能 更 合适 ， 例 如 
中 止 程序 的 运行 或 锁 住 用 户 的 键盘 。 将 这 些 尝 试 记录 在 特殊 的 日 志 一 一 威胁 监控 〈threat monito- 
ring) 一 一 中 或 许 更 可 取 ， 这 些 信 息 可 用 以 对 破坏 系统 安全 性 的 尝试 进行 分 析 ， 而 且 自 身 能 抵制 
不 合法 的 渗透 〈 可 参考 本 节 最 后 关于 审计 追踪 的 讨论 ) 。 

当然 ,我们 也 需要 一 种 方式 来 删除 授权 : 


DROP AUTHORITY <authority name> ; 


为 简化 起 见 ， 我 们 假设 制 除 关系 变量 时 将 自动 市 除 使 用 于 该 关系 变量 上 的 所 有 授权 信息 。 
下 面 是 一 些 关 于 授权 的 例子 ， 大 部 分 不 言 自明 : 
1) AUTHORITY EX1 

GRANT RETRIEVE { P#, PNAME, WEIGHT } 


ON 
TO Jacgques, Anne, Charley ; 


用 户 Jacques 、Anne 和 Charley 所 看 到 的 是 基 关 系 变量 P 的 “垂直 子 集 ”,， 该 例 是 值 无 关 授权 
的 例子 。 
2) AUTHORITY EX2 
GRANT RETRIEVE, DELETE, UPDATE { SNAME, STATUS } 
了 0 Dan, Misha ; 
LS 是 视图 ( 匈 第 10 章 的 图 10-4 一 “London 供应 商 ”) 。 用 户 Dan 和 Misha 看 到 的 是 关系 变 
量 8$ 的 “水 平子 集 " ， 该 例 是 值 依 赖 授权 的 例子 。 注 意 : 虽然 Dan 和 Misha 能 删除 5 的 部 分 元 组 
(通过 视图 LS) ， 但 不 能 插 人 元 组 ， 也 不 能 对 属性 S# 或 CITY 进行 更 新 。 
3) VAR SSPPO VIEW 


( S JOIN SP JOIN ({ P WHERE CITY = ‘Oslo'’' ) { P# } ) 
{ ALL BUT PpP#, QTY } ; 





AUTHORITY EX3 
GRANT RETRIEVE 
ON SSPPO 
TO Lars } 


该 例 也 是 值 依赖 授权 的 例子 ,用户 Lars 可 以 查询 供应 商 的 信息 ,但 只 能 是 供应 存储 在 Oslo 
的 零件 的 供应 商 。 
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4) VAR SSQ VIEW 
SUMMARIZE SP PER S { S# } ADD SUM ( QTY ) RS SQ ; 


AUTHORITY EX4 
GRANT RETRIEVE 
ON 
TO Fidel ; 


用 户 Fidel 可 查看 每 个 供应 商 的 总 发 货 量 ， 但 不 能 查看 到 每 次 发 货 量 ， 用 户 只 能 查看 到 基于 
底层 基本 数据 的 统计 汇总 信息 。 


5) AUTHORITY EX5 
GRANT RETRIEVE, UPDATE { STATUS } 


RHEN B DAY () IN { 'Mon', 'Tue', 'Wed', ‘Thu', 'Fri'’' } 
AND NOW () > TIME ‘09:00:00" 
AND NOW () S TIME '17:00:00' 
TO ACCOUNTING ，; 

这 里 我 们 对 AUTHORITY 的 语法 作 了 扩展 ,增加 了 WHEN 子 句 用 以 说 明 特 定 的 “环境 控 
制 ”; 我 们 也 假设 系统 支持 两 个 无 操作 数 的 操作 (niladic operator) 也 就 是 说 ， 操 作 符 没有 带 
有 了 明显 的 操作 数 一 -DAY() 和 NOW()。 授 权 EX5 保证 了 供应 商 的 状态 值 只 能 由 用 户 “AC- 
COUNTING” (假定 是 accounting 部 门 的 任意 一 个 职员 ) 在 工作 日 的 工作 时 间 更 改 。 这 通常 称 为 
环境 依赖 (context-dependent) 授权 ， 因 为 存 取 请 求 是 否 被 准许 依赖 于 环境 ， 如 该 例 中 的 环境 指 
的 是 一 周 中 的 某 些 特定 的 天 和 一 天 中 某 段 特定 时 间 的 组 合 。 

其 他 系统 应 该 支持 且 对 环境 依赖 授权 有 用 的 内 置 操作 的 例子 有 : 








TODAY ( } : Value = the current date 
USER!{ ) : Value = the Tb of the current user 
TERMINAL() : Value = the ID of the originating terminal 


for the current request 


现在 你 可 能 已 意识 到 ， 所 有 的 授权 是 “或 ”在 一 起 使 用 的 。 换 句 话说， 如 果 至 少 存在 一 个 
授权 准许 给 定 的 存 取 请 求 ， 该 请 求 就 是 可 接受 的 。 注 意 : 举 个 例子 来 说 ， 如 果 (a) 一 个 授权 人 允 
许 用 户 Nancy 检索 零件 的 颜色 ; (b) 另 一 授权 允许 她 检索 零件 的 重量 ; 这 并 不 意味 着 她 能 同时 
检索 零件 的 颜色 和 重量 (这 种 组 合 需要 特别 授权 ) 。 

最 后 提 一 点 ， 用 户 只 能 做 定义 的 授权 明确 允许 的 事情 ， 任 何 未 明确 授权 的 事情 都 隐 含 是 不 合 
法 的 。 

1. 修改 请 求 | 

为 了 解释 本 节 中 已 经 提 到 的 概念 ， 我 们 简单 介绍 Ingres 原型 系统 的 安全 机 制 以 及 查询 语言 
QUEL， 因 为 其 采用 了 一 种 巧妙 的 方法 。 基 本 原理 就 是 系统 对 给 定 的 QUEL 请 求 在 其 执行 前 进行 
自动 地 修改 ,使 其 不 违背 安全 性 约束 。 举 个 例子 : 假定 用 户 U 只 允许 检索 存储 在 London 的 
零件 : 


DEFINE PERMIT RETRIEVE ON P TOU 
WHERE P.CITY = "London’” 


(在 后 面 将 给 出 DEFINE PERMIT 操作 的 详细 解释 ) 假设 用 户 上 U 发 出 如 下 的 QUEL 请 求 : 


RETRIEVE ( P.P#, P.WEIGHT ) 
WHERE P.COLOR = "Red" 


利用 存储 在 目录 中 的 允许 对 关系 变量 P 和 用 户 U 存 取 的 条 件 ， 系 统 将 用 户 的 请 求 自动 修改 
如 下 : 

RETRIEVE ( P.P#, P.WEIGHT ) 

WH 


ERE P.COLOR = "Red" 
AND P.CITY = "London" 


显然 ， 这 种 修改 不 可 能 违背 安全 性 约束 。 注 意 ， 这 个 修改 过 程 是 “悄悄 进行 的 " : 用 户 忆 并 
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不 知道 系统 执行 的 语句 与 其 请 求 并 不 完全 相同 ， 因 为 数据 本 身 就 是 敏感 的 ， 用 户 以 无 权 知 道 非 
London 地 区 的 零件 。 

上 述 修改 请 求 的 过 程 实际 上 与 视图 实现 【10. 12] 以 及 完整 性 约束 [9.23] (尤其 在 Ingres 
原型 中 ) 的 技术 是 一 致 的 ， 因 此 该 方案 的 优点 在 于 实现 简单 一 一 许多 必要 的 代码 已 存在 于 原来 
的 系统 ; 效率 高 一 一 安全 措施 的 实施 在 编译 时 ， 而 不 是 在 运行 时 ， 至 少 部 分 如 此 ; 另外 一 个 优点 
就 是 能 满足 某 用 户 对 同一 关系 变量 的 不 同 部 分 具有 不 同 的 存 取 权限 的 需求 (17.6 节 中 对 这 个 问 
题 将 有 一 个 专门 的 解释 )。 

该 方案 的 缺点 在 于 不 能 处 理 所 有 安全 性 约束 。 举 个 简单 的 例子 ,假设 用 户 上 U 根 本 就 不 具有 
存 取 关系 变量 P 的 权限 ,根据 上 述 修改 过 程 ， 不 存在 RETRIEVE 的 修改 形式 能 说 明 关 系 变量 P 
存在 ， 因 此 很 可 能 会 有 另外 的 错误 消息 代 蔡 “你 无 权 存 取 该 关系 变量 ”。 系 统 可 能 会 “撒谎” 说 
“不 存在 该 关系 变量 ", 或 者 ， 好 一 点 的 情况 是 说 “不 存在 该 关系 变量 或 者 你 无 权 存 取 它 ”。 

下 面 是 DEFINE PERMIT 的 语法 : 


DEFINE PERMIT <operation name commalist> 


<relvar name> [ ( <attribute name commalist> ) | 
TO <user ID> 
AT <terminal ID commalist> | 


FROM <time> TO <time> ] 
<day> TO <day> |] 
WHERE <bool exp> ] 
该 语句 与 AUTHORITY 非常 类 似 ， 除 了 增加 了 对 WHERE 子 句 的 支持 (AT、FROM 、ON 子 
名 全 部 被 我 们 的 WHEN 子 句 所 包含 ) 。 参 考 下 面 的 例子 : 


DEFINE PERMIT RETRIEVE, APPEND, REPLACE 
CITY ) 


© © 
乙 艺 


S ( S#, 
TO Joe 
AT TTA4 
FROM 9:00 TO 17:00 
ON Sat TO Sun 


WHERE S.STATUS < 50 
AND S.S# = SP.P# 
AND SP.P# = P.P#¥ 
AND P.COLOR = "Red" 
注意 ; QUEL 中 的 APPEND 和 REPLACE 分 别 类 似 于 我 们 的 INSERT 和 UPDATE。 
2. 审计 追踪 
永远 不 要 认为 安全 性 系统 是 坚不可摧 的 ， 潜 在 的 渗透 者 总 能 想方设法 突破 控制 ， 尤 其 是 当 其 
因此 能 获得 很 高 的 利益 时 。 如 果 数 据 具 有 很 高 的 敏感 性 ， 数 据 处 理 过 程 很 重要 ， 审 计 追 踪 就 非常 
必要 了 。 如 果 你 怀疑 数据 库 中 的 数据 遭 到 纂 改 ， 就 可 以 通过 审计 追踪 检查 用 户 对 数据 库 究竟 执行 
了 哪些 操作 ， 并 可 确认 操作 都 受到 了 控制 ， 或 可 帮助 确定 误 操作 的 人 员 。 
审计 追踪 本 质 上 是 一 特殊 的 文件 或 数据 库 ， 系 统 可 自动 记录 用 户 对 数据 执行 的 所 有 操作 。 在 
有 些 系统 中 ， 审 计 追 踪 物 理 上 与 恢复 日 志 合 二 为 一 (参见 第 15 章 ) ,而 有 的 系统 中 两 者 分 别 存 
放 。 无 论 哪 种 方式 ， 用 户 都 应 该 能 利用 规则 的 查询 语言 解释 审计 追踪 (当然 用 户 必 须 具 有 权 
限 ) 。 通 常 的 审计 追踪 包含 如 下 的 信息 : 
s 请 求 〈 源 文本 ) 
a 发 出 操作 调用 的 终端 
a 发 出 操作 调用 的 用 户 
am 操作 日 期 和 时 间 
e 操作 作用 的 关系 变量 、 元 组 、 属 性 
s 镜像 前 ( 旧 值 ) 
a 镜像 后 (新 值 ) 
正如 本 节 前 面 所 提 到 的 ， 审 计 追 踪 维护 的 信息 必须 是 够 充分 以 防止 某 些 情形 下 的 不 怀 好 意 的 
渗透 者 。 
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军 方 和 政府 的 数据 具有 很 高 的 敏感 性 ， 通 常 具有 静态 的 严格 的 分 层 结构 (classification struc- 
ture) ， 强 制 存 取 控 制 对 于 存放 这 样 的 数据 的 数据 库 非常 适用 。 如 17. 1 节 简 要 介绍 的 那样 ， 该 方 
法 的 基本 思想 在 于 每 个 数据 对 象 具 有 一 定 的 密级 (classification level) ， 如 : 绝密 、 机 密 、 秘 密 
等 ; 每 个 用 户 具 有 一 定 的 许可 证 级 别 (clearence level) 。 密 级 和 许可 证 级 别 都 是 严格 有 序 的 ， 
如 : 绝密 > 机密 > 秘密 。Bell 和 La Padula [17.3] 采用 如 下 的 简单 规则 : 

1) 用 户 i 可 以 查询 对 象 j， 当 且 仅 当 i 的 许可 证 级 别 大 于 或 等 于 j 的 密级 (简单 规则 ); 

2) 用 户 i 可 以 更 新 对 象 j， 当 且 仅 当 i 的 许可 证 级 别 等 于 j 的 密级 ( 星 规则 )。 

规则 1 的 意义 是 明显 的 ， 而 规则 2 需要 一 点 说 明 。 规 则 2 的 男 一 种 表述 为 用 户 i 所 写 的 对 象 
自动 获得 的 密级 等 于 其 许可 证 级 别 ， 该 规则 是 为 了 防止 具有 较 高 级 别 的 用 户 将 该 级 别 的 数据 复制 
到 较 低级 别 的 文件 中 。 注 意 : 如 果 只 是 纯粹 的 “ 写 ” (INSERT) 操作 ， 写 规则 可 以 弱化 为 : 当 
且 仅 当 i 的 许可 证 级 别 小 于 或 等 于 j 的 密级 ， 用 户 i 可 以 “ 写 ” 对 象 j, 但 是 用 户 可 能 无 权 读 所 写 
的 对 象 ， 因 此 ， 这 样 的 弱化 不 很 现实 。 

20 世纪 90 年 代 早期 强制 存 取 控制 引起 了 数据 库 领 域 的 注意 ， 因 为 美国 国防 部 要 求 其 所 购买 
的 所 有 系统 都 必须 支持 这 样 的 控制 ， 这 就 促使 各 大 DBMS 厂商 竞相 提供 这 样 的 支持 。 美 国 国防 
部 颁布 的 “ 橘 皮 书 ”[ 17.21] 和 “ 紫 皮 书 ”[17.22] 对 强制 存 取 控 制作 了 全 面 的 描述 和 定义 ， 
“ 橘 皮 书 ” 定 义 了 任意 “可 信 计 算 基 ” (Trusted Computing Base， 简 称 TCB) 应 当 遵从 的 一 系列 
安全 性 要 求 ; 而 “ 紫 皮 书 ” 则 定义 了 这 些 要 求 在 数据 库 系 统 中 相应 的 解释 。 

上 述 两 份 文献 给 出 了 通用 的 安全 性 分 级 模式 ， 共 定义 了 四 类 安全 级 别 : D、C、B 和 A， 由 
D 类 到 A 类 级 别 依次 增高 。D 类 提供 最 小 (minimal) 保护 ，C 类 提供 自主 (discretionary) 保 
护 ，B 类 提供 强制 (mandatory) 保护 ，A 类 提供 验证 (verified) 保护 。 我 们 对 级 别 C，B 和 A 
做 一 介绍 。 

sm 自主 保护 : C 类 分 为 两 个 子 类 Cl 和 C2 ，C1 安全 级 别 低 于 C2。 每 个 子 类 都 支持 自主 存 取 

控制 ， 即 存 取 权 限 由 数据 对 象 的 所 有 者 决定 〈 见 17. 2 节 的 介绍 ) 。 

1) C1 子 类 对 所 有 权 与 存 取 权限 加 以 区 分 ， 虽 然 它 允许 用 户 拥有 自己 的 私有 数据 ， 但 仍然 支 
持 共享 数据 的 概念 。 

2) C2 子 类 还 要 求 通过 注册 、 审 计 以 及 资源 隔离 以 支持 责任 说 明 (accountability ) 。 

a 强制 保护 : B 类 适用 于 强制 控制 的 安全 级 别 。 它 分 为 三 个 子 类 B1 、B2 和 B3 ，B1 安全 级 

别 最 低 ，B3 最 高 。 

1) BI 子 类 要 求 “标识 化 安全 保护 ”， 即 要 求 每 个 数据 对 象 都 必须 标 以 一 定 的 密级 ， 如 机 
密 、 秘 密 等 。 同 时 还 要 求 安全 策略 的 非 形式 化 说 明 。 

2) B2 子 类 要 求 安 全 策略 的 形式 化 (formal) 说 明 ， 能 识别 并 消除 隐蔽 通道 ( covert chan- 
nel) 。 隐 项 通道 的 例子 有 (a) 从 合法 查询 的 结果 中 推断 出 不 合法 的 查询 的 结果 ( 见 17.4 节 ); 
(b) 通过 合法 计算 所 用 的 时 间 推 断 出 敏感 信息 ( 见 参考 文献 [17. 14] 的 解释 ) 。 

3) B3 子 类 要 求 审 计 和 恢复 支持 以 及 指定 的 安全 管理 者 。 

se 验证 保护 : A 类 作为 最 高 的 安全 级 别 ， 要 求 有 一 套数 学 证 明 来 保证 安全 机 制 的 相 容 性 并 足 

以 支持 给 定 的 安全 策略 。 

有 些 DBMS 产品 现在 提供 Bl 级 强制 存 取 控制 以 及 C2 级 自主 存 取 控制 。 术 语 : 支持 强制 存 

取 控 制 的 DBMS 也 称 为 多 级 安全 系统 (mnulti-level secure system) [17.15，17.18，17.23] 或 可 


信和 系统 (trusted system)[17.19,17.21,17.22]。 CITY LEVEL 
多 级 安全 London 
假设 要 对 关系 变量 $ 进行 强制 存 取 控制 ， Parie 

为 简化 起 见 ， 假 设 要 控制 存 取 的 数据 单元 是 元 London 





Athens 





组 ， 则 每 个 元 组 需 标 以 密级 ， 如 图 17-1 所 示 
(4 = 绝密 ，3 = 机密，2 = 秘密 ) 。 图 17-1 具有 密级 的 关系 变量 8 (示例 ) 
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假设 用 户 U3 和 记 的 许可 证 级 别 分 别 为 3 和 2， 那 么 3 和 看 到 的 5 是 不 一 样 的 。 若 请 
求 查询 所 有 的 供应 商 ，U3 能 查 得 四 个 元 组 : S1 、5S2、53 和 5; U2 只 查 得 两 个 元 组 : Sl1 和 53， 
U3 和 U2 都 无 法 查 得 元 组 54。 

可 从 修改 请 求 (request modification) 的 角度 考虑 上 述 问题 。 考 虑 这 样 的 查询 “查找 London 
的 供应 商 ”: 


S WHERE CITY = 'London' 


系统 将 请 求 修改 为 : 


S WHERE CITY = 'London' AND LEVEL < user clearance 


更 新 操作 类 似 ， 举 个 例子 ， 用 户 U3 不 知道 元 组 $4 存在 ， 因 此 ,对 03 来 说 ， 下 面 的 IN- 
SERT 语句 是 合理 的 : 
INSERT S RELATION { TUPLE { S# S# ('S4'), 
SNAME NAME ('Baker')， 


STATUS 25, 
CITY 'Rome’ } ) ; 


系统 必须 拒绝 该 插入 请 求 ， 但 这 样 做 实际 上 使 用 户 意识 到 $4 在 数据 库 中 是 存在 的 。 因 此 系统 接 
受 该 请 求 ， 但 将 其 修改 为 : 


INSERT S RELATION { TUPLE { S# S# ('S4')， 
SNAME NAME ('Baker'), 
STATUS 25, 
CITY “Rome ' ， 
LEVEL 3 }}; 


这 样 ， 供 应 商 的 主 码 实际 上 不 是 1S#| ,而 是 1S#，LEVEL| 。 注 意 : 这 里 假设 只 有 一 个 候选 
码 ， 因 此 可 将 之 作为 主 码 。 

供应 商 关系 变量 可 看 作 多 级 变量 ( multi-level relvar) , “相同 ”数据 对 不 同 用 户 来 说 ， 实 际 
并 不 相同 被 称 作 多 重 实 例 (polyinstantiation) ， 如 查询 供应 商 54 的 请 求 将 对 具有 绝密 、 机 密 以 及 
秘密 等 不 同安 全 级 别 的 用 户 返回 不 同 的 结果 。 

DELETE 和 UPDATE 也 是 类 似 处 理 方式 ;这 里 我 们 省 略 了 细节 的 说 明 ， 但 在 本 章 最 后 的 几 
个 参考 文献 中 将 针对 这 个 问题 进行 更 加 深入 的 讨论 。 回 答 这 样 一 个 问题 : 你 认为 上 面 的 处 理 方式 
是 否 违 背 了 信息 原则 (The Information Principle)? 请 证 明 你 的 想法 。 


17.4 统计 数据 库 


统计 数据 库 允 许 用 户 查询 聚集 类 型 的 信息 (例如 合计 、 平均 值 等 ) ， 但 是 不 允许 查询 单个 记 
录 信 息 。 例 如 ， 查 询 “雇员 的 平均 工资 是 多 少 ?” 是 合法 的 ， 但 是 却 不 允许 查询 “雇员 Mary 的 
工资 是 多 少 ?”。 

在 统计 数据 库 中 存在 着 特殊 的 安全 性 问题 ， 即 可 能 存在 着 隐蔽 的 信息 通道 ， 使 得 用 户 可 以 从 
合法 的 查询 中 推导 出 不 合法 的 信息 。 正 如 参考 文献 [17.8] 指出 的 :“ 综 合 信 息 总 是 带 有 少量 的 
原始 信息 ， 利 用 足够 的 综合 信息 就 可 能 获得 原始 信息 ， 这 也 称 作 机 密 信息 的 推断 。” 随 着 数据 仓 
库 应 用 得 越 来 越 广泛 ， 这 个 问题 也 变 得 越 来 越 严 重 (参见 第 22 章 )。 

假定 数据 库 中 只 有 一 个 关系 变量 STATS (如 图 17-2 所 示 ) ， 所 有 的 属性 都 简单 地 定义 在 字 
符 囊 或 数字 上 ; 用 户 U 只 具有 执行 统计 信息 查询 的 权限 ， 并 且 打 算 查 出 Alf 的 工资 ,其 中 UU 知 
道 Alf 是 程序 员 且 为 男性 。 

考虑 以 下 查询 :9 





念 “ 为 写 起 来 方便 ， 本 节 的 查询 都 使 用 Tutorial D 的 简化 格式 来 表示 。 例 如 ， 查 询 1 中 的 表达 式 COUNT (X) ， 完 整 
地 写 应 该 是 EXTEND TABLE_DEE ADD COUNT (X) AS RESULTI 。 
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ET | i | ei | i | RR | D1 | 


Alf Programmer 
Physician 
Programmer 
Builder 
Clerk 
Artist 
Lawyer 
Homemaker 
Programmer 
Programmer 











OPNNODNDG 
HOOOOPPOW 








国 本 半生 格局 才 吕 区 











图 17-2 关系 变量 STATS (样本 值 ) 


1) WITH ( STATS WHERE SEX = “M' AND 
OCCUPATION = 'Programmer' ) RS X : 
COUNT ( X ) 


2) WITH ( STATS WHERE SEX = 'M' AND 
OCCUPATION = ‘Programmer' ) AS X : 
SUM ( X, SALARY ) 

结果 : 50K。 

显然 ， 尽管 用 户 U 的 统计 信息 查询 都 是 合法 的 ， 数 据 库 的 安全 仍 受到 了 危害 。 从 上 例 可 看 
出 ， 如 果 用 户 能 找到 一 个 布尔 表达 式 识别 出 某 个 个 体 ， 有 关 该 个 体 的 信息 将 不 再 安全 。 这 表明 当 
综合 查询 结果 和 集 的 基数 低 于 某 个 下 限 b 时 系统 应 拒绝 响应 。 同 样 ， 当 综合 查询 结果 集 的 基数 高 于 
上 限 n -6b 时 系统 也 应 拒绝 响应 (n 是 关系 的 基数 ) ， 从 下 面 的 查询 可 看 出 ， 当 基数 很 高 时 数据 库 
的 安全 同样 会 受到 危害 。 


3) COUNT ( STATS ) 


结果 12。 
4) WITH { STATS WHERE NOT ( SEX = 'M' AND 
OCCUPATION = 'Programmer ) ) AS X : 
COUNT ( XxX ) 


结果 : 11; 12-11=1。 
5) SUM ( STATS, SALARY ) 


结果 : 728K。 


6) WITH ( STATS WHERE NOT ( SEX = 'M’' AND 
OCCUPATION = 'Programmer’' ) ) AS X : 
SUM ( X, SALARY ) 
结果 : 678K; 728K -678K =50K。 
不 幸 的 是 ， 简 单 地 将 综合 查询 结果 集 的 基数 c 限定 在 b<c<n -5， 并 不 足以 避免 数据 
库 的 安全 受到 危害 。 考 虚 图 17-2， 假 定 b= 2， 当 上 且 仅 当 2<c<8 时 查询 请 求 才 被 响应 ， 布 
尔 表达 式 


SEX = 'M' AND OCCUPATION = 'Programmer' 


不 再 合法 。 但 是 考虑 下 面 的 查询 : 


7) WITH ( STATS WHERE SEX = 'M' ) AS X : 
COUNT (X ) 
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结果 : 4。 
8) WITH ( STATS WHERE SEX = 'M' AND NOT 
( OCCUPATION = 'Programmer’ ) ) AS X : 
COUNT ( X ) 
结果 : 3 


从 查询 7 和 8， 用 户 U 可 推断 出 只 存在 一 个 男性 程序 员 ， 其 必定 是 Af， 由 此 可 通过 下 面 的 
语句 查 出 Atf 的 工资 : 


9) WITH ( STATS WHERE SEX = 'M' ) RS X : 
SUM { XxX, SALARY ) 


结果 : 328K。 


10) WITH ( STATS WHERE SEX = 'M' AND NOT 
( OCCUPATION = 'Programmer’' ) ) : 
SUM ( X, SALARY ) 

结果 : 278K; 328K -278K =50K。 

布尔 表达 式 SEX = 'M' AND NOT OCCUPATION =' Programmer ' 称 作 Alf 的 个 体 追 踪 者 
(individual tracker) [17.8] ， 这 是 因为 通过 它 用 户 才能 追踪 获得 个 体 信息 。 一 般 地 讲 ， 如 果 用 户 
知道 识别 某 个 体 1 的 某 布尔 表达 式 BE， 并 且 BE 可 表示 为 BEL AND BE2 这 样 的 形式 ， 那 么 BE1 
AND NOT BE2 就 是 1 的 个 体 追 踪 者 (假设 BE1 和 BE1 AND NOT BE2 都 是 合法 的 ， 即 两 者 的 结 
果 集 基数 都 在 上 述 的 限定 范围 内 )。 原 因 在 于 BE 所 确定 的 集合 等 于 BE1 所 确定 的 集合 同 BE1 
AND NOT BE2 所 确定 集合 的 差 : 


{XxX: BE} = {x : BEl AND BE2 } 
= {x : BEl1 } MINUS { x : BEl1 AND NOT BE2 } 


如 图 17-3 所 示 。 


Set identified by BE]1 


Set identified by 


Set identified 
by BE1 AND BE2 
— i.e., {I} 





Set identified by BE2 


图 17-3 个 体 追 踪 者 BEl AND NOT BE2 


参考 文献 [17.8] 概括 了 前 面 的 内 容 ， 并 指出 对 几乎 任意 一 个 统计 数据 库 总 能 找到 一 个 通 
用 追踪 者 (general tracker) 这 是 相对 于 个 体 追 踪 者 而 言 的 。 通 用 追踪 者 是 这 样 的 布尔 表达 
式 ， 它 能 用 于 获得 任意 不 合法 查询 (包含 不 合法 表达 式 的 查询 ) 的 结果 ， 而 个 体 追 踪 者 只 对 某 
些 特殊 的 不 合法 查询 有 效 。 实 际 上 ， 任 何 结果 集 基 数 c 满足 2b<c<n -2b 的 表达 式 都 是 通用 追 
踪 者 ， 这 里 必须 小 于 nw4， 通 常 适 用 于 各 种 实际 情况 。 一 旦 找到 这 样 的 追踪 者 ， 相 应 于 不 合法 
表达 式 BE 的 查询 就 可 迎刃而解 ， 下 面 的 例子 将 对 此 进行 解释 。 该 例 中 假设 BE 的 结果 集 基 数 小 
于 5， 类 似 地 ， 当 BE 的 结果 集 基 数 大 于 二 -名 时 也 是 如 此 处 理 。 注 意 ， 从 定义 可 看 出 ， 若 了 是 通 
用 追踪 者 ， 则 NOT 了 也 是 通用 追踪 者 。 

例 : 假设 b=2， 则 通用 追踪 者 是 任何 结果 集 基数 c 满足 4 友 c<6 的 表达 式 。 仍 假设 用 户 U 
从 外 部 资料 获悉 Alf 是 一 个 男性 程序 员 ， 即 不 合法 布尔 表达 式 BE 是 (与 前 面 一 样 ) : 


SEX = 'M' AND OCCUPATION = “Programmez ， 


并 且 假设 局 试图 查 出 Atf 的 工资 。 对 通用 追踪 者 使 用 两 次 ， 首 先 确定 BE 实际 上 唯一 标识 Alf 
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(步骤 2 ~4) ， 再 确定 Alf 的 工资 (步骤 5 ~7)。 
步骤 1: 猜测 一 追踪 者 T。 这 里 选择 的 7 为 表达 式 
AUDITS = 0 
步骤 2: 利用 表达 式 7 以 及 NOT 7 获得 数据 库 中 个 体 的 总 数 。 


WITH ( STATS WHERE AUDITS = 0 ) RS X : 


COUNT (X ) 

结果 : 5。 

WITH ( STATS WHERE NOT ( AUDITS = 0 ) ) AS X : 
COUNT ( XxX ) 


结果 : 5; 5 +5 =10。 
显然 ， 我们 所 猜测 的 就 是 通用 追踪 者 。 
步骤 3: 利用 表达 式 BE OR 了 以 及 BE OR NOT 7 获得 数据 库 中 个 体 总 数 与 满足 不 合法 表 
达 式 BE 的 个 体 数 目的 总 和 。 
WITH ( STATS WHERE ( SEX = 'M' AND 
OCCUPATION = 'Programmer' ) 


- OR AUDITS =0 )RASX: 
COUNT ( XxX ) 


结果 : 6。 


WITH ( STATS WHERE ( SEX = 'M' AND 
OCCUPATION = 'Programmer' ) 
OR NOT ( AUDITS = 0 ) ) ASX : 
COUNT ( X ) 


结果 : 5; 6+5=11。 

步骤 4: 从 上 面 的 结果 可 算出 满足 BE 的 个 体 数目 是 1 (步骤 3 的 结果 减 去 步骤 2 的 结果 )， 
显然 ，BE 唯一 标识 了 Alf。 

在 步骤 5 和 6 中 重复 步骤 2 和 3 的 查询 ， 但 使 用 SUM 取代 COUNT。 

步骤 5， 利用 表达 式 了 以 及 NOT 7 获得 数据 库 中 个 体 的 工资 总 额 。 


WITH ( STATS WHERE AUDITS = 0 ) AS X : 
SUM ( X, SALARY ) 


结果 : 438K。 


WITH ( STATS WHERE NOT ( AUDITS =0 ) ) ASX : 
SUM ( X, SALARY ) 


结果 : 290K; 438K +290K =728K。 
步骤 6: 利用 表达 式 BE OR T 以 及 BE OR NOT 了 获得 Alf 的 工资 与 工资 总 额 的 总 和 。 


WITH ( STATS WHERE ( SEX = 'M' AND 
OCCUPATION = 'Programmer' ) 
OR AUDITS = 0 ) AS X: 
SUM ( X, SALARY ) 


结果 2 488K。 


WITH ( STATS WHERE ( SEX = 'M’' AND 
OCCUPATION = 'Programmer' ) 
OR NOT ( AUDITS = 0 }) ) AS X : 
SUM ( X, SALARY ) 


结果 : 290K; 488K +290K =778K。 
步骤 7: 从 步骤 6 的 结果 中 减 去 工资 总 额 (步骤 5 的 结果 ) 即 得 Alf 的 工资 。 
结果 : 50K。 
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图 17-4 解释 了 通用 追踪 者 : 
{x:BE} a ({x:BEORT) UNION{x: BEORNOTT}) 
MINUS { x : T OR NoT 了 } 








7 实际 上 并 不 是 一 个 通用 追踪 者 ， 则 表达 
式 (BE OR 7T) 与 (BE OR NOT 了) 中 
至 少 有 一 个 可 能 是 不 合法 的 。 举 个 例子 ， 
如 果 BE 和 7 的 结果 集 基数 分 别 为 p 和 9， 图 17-4 通用 追踪 者 了 

并 满足 P < b, bp<q<2b, 则 (BE OR NOT T) 的 结果 集 基数 大 于 nn-b 是 有 可 能 的 。 因 此 必须 
再 猜测 通用 追踪 者 并 检测 。 参 考 文献 [17.8] 表明 找到 通用 追踪 者 的 过 程 并 不 困难 。 本 例 中 ， 
最 初 的 猜测 是 正确 的 ，T 是 一 个 通用 追踪 者 ( 因为 其 结果 集 基数 为 5) ， 因 此 步骤 3 的 查询 都 是 
合法 的 。 

总 结 ; 通用 追踪 者 “几乎 总 是 ”存在 的 ， 而 且 通 常 容易 找到 并 易于 使 用 。 事 实 上 ， 通 过 
猜测 迅速 找到 追踪 者 是 可 能 的 【17.8] 。 参 考 文献 [17.8] 指出 ， 即 使 在 通用 追踪 者 不 存在 
的 情况 下 ， 对 于 特殊 的 查询 通常 也 能 找到 特殊 的 追踪 者 。 因 此 ， 在 统计 数据 库 中 安全 性 确实 
是 个 问题 。 

问题 如 何 解决 ?现在 已 经 有 了 一 些 解决 办 法 ， 但 没有 一 个 能 完全 令 人 满意 。 举 个 例子 ， 一 种 
方法 是 “数据 交换 " ， 即 在 元 组 间 交 换 属性 值 ， 但 不 破坏 整体 的 统计 精确 性 。 这 样 即使 某 个 特定 
的 值 (如 工资 ) 被 识别 出 来 ,仍然 没有 办 法 知道 该 值 属于 哪个 个 体 。 采 用 这 种 办 法 的 困难 在 
于 确定 能 被 交换 的 值 的 集合 。 其 他 方法 采用 了 类 似 的 限制 形式 。 由 此 看 来 我 们 应 同意 参考 
文献 [17.8] 中 的 结论 :“ 折 应 的 办 法 简单 易 行 。 对 机 密 信 息 绝对 保密 的 要 求 与 对 总 体 的 
任意 子 集 采 用 精确 的 统计 措施 的 要 求 是 不 可 能 同时 满足 的 ， 要 保证 秘密 可 行 至 少 要 降低 其 
中 的 一 个 要 求 。” 

17.5 数据 加 密 

前 面 的 讨论 都 是 认为 恶意 的 攻击 者 将 使 用 通常 的 系统 设施 存 取 数据 库 ， 现 在 考虑 用 户 可 能 试 
图 旁 路 系统 的 情况 ， 如 物理 地 取 走 数据 库 ， 在 通信 线路 上 窃听 。 对 这 样 的 威胁 最 有 效 的 解决 方法 
就 是 数据 加 密 (data encryption) ， 即 以 加 密 格式 存储 和 传输 敏感 数据 。 

数据 加 密 的 术语 有 ， 明文 (plaintext) ， 即 原始 的 或 未 加 密 的 数据 。 通 过 加 密 算法 (encryp- 
tion algorithm) 对 其 进行 加 密 ， 加 密 算法 的 输入 信息 为 明文 和 密 钥 (encryption key); 密 文 (ci 
phertext) ， 明 文 加 密 后 的 格式 ， 是 加 密 算 法 的 输出 信息 。 加 密 算法 是 公开 的 ， 而 密 钥 则 是 不 公开 
的 。 密 文 不 应 为 无 密 钥 的 用 户 理解 ， 其 用 于 数据 的 存储 以 及 传输 。 

例 : 明文 为 字符 串 : 


AS KINGFISHERS CATCH FIRE 
(为 简便 起 见 ， 假 定 所 处 理 的 数据 字符 仅 为 大 写字 母 和 空格 符 ) 。 假 定 密 钥 为 字符 串 : 


ELIOT 


加 密 算法 为 : 
1) 将 明文 划分 成 多 个 密 钥 字 符 串 长 度 大 小 的 块 〈 空 格 符 以 “+ ”表示 ) : 


AS+KI NGFIS HERS+ CATCH +FIRE 
2) 用 00 ~26 范围 的 整数 取代 明文 的 每 个 字符 ， 空 格 符 =00,A=01, …, 2Z=26: 
0119001109 1407060919 0805181900 0301200308 0006091805 

3) 与 步骤 2 一 样 对 密 钥 的 每 个 字符 进行 取代 : 


0512091520 


Set identifiediby BE — i.e., 
{ 


如 果 最 初 的 猜测 是 错 的 ， 也 就 是 说 ， ~ identified by 7T | Set identified by NOT 7 
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4) 对 明文 的 每 个 块 ， 将 其 每 个 字符 用 对 应 的 整数 编码 与 密 钥 中 相应 位 置 的 字符 的 整数 编码 
的 和 模 27 后 的 值 取代 : 


0119001109 1407060919 0805181900 0301200308 0006091805 
0512091520 0512091520 0512091520 0512091520 0512091520 


0604092602 1919152412 1317000720 0813021801 0518180625 


5) 将 步骤 4 的 结果 中 的 整数 编码 再 用 其 等 价 字符 替换 : 


FDI2 B SSOxXL MQ+GT HMBRA ERRPFY 


如 果 给 出 密 钥 ,该 例 的 解密 过 程 很 简单 (习题 ， 对 上 面 的 密 文 进行 解密 )。 问 题 是 对 于 一 个 
恶意 攻击 者 来 说 ， 在 不 知道 密 钥 的 情况 下 ， 利 用 相 匹 配 的 明文 和 密 文 获得 密 钥 究竟 有 多 困难 ? 对 
于 上 面 简单 的 例子 ， 答 案 是 相当 容易 的 ， 但是， 复杂 的 加 密 模 式 同 样 很 容易 设计 出 来 。 理 想 的 情 
况 是 采用 的 加 密 模 式 使 攻击 者 破解 所 付出 的 代价 远 远 超过 其 所 获得 的 利益 。 实 际 上 ， 该 目的 适用 
于 所 有 的 安全 性 措施 。 这 种 加 密 模式 的 最 终 目 标 是 : 即使 是 该 模式 的 发 明 者 也 无 法 通过 相 匹 配 的 
明文 和 密 文 获得 密 钥 ， 也 无 法 破解 密 文 。 

1. 数据 加 密 标准 

传统 加 密 方法 有 两 种 ， 替 换 和 置换 。 上 面 的 例子 采用 的 就 是 替换 的 方法 : 使 用 密 钥 将 明文 中 
的 每 一 个 字符 转换 为 密 文 中 的 一 个 字符 。 而 置换 仅 将 明文 的 字符 按 不 同 的 顺序 重新 排列 。 单 独 使 
用 这 两 种 方法 的 任意 -种 都 是 不 够 安全 的 ， 但 是 将 这 两 种 方法 结合 起 来 就 能 提供 相当 高 的 安全 程 
度 。 数 据 加 密 标 准 (Data Encryption Standard ， 简 称 DES) 就 采用 了 这 种 结合 算法 ， 它 由 IBM 制 
定 ， 并 在 1977 年 成 为 美国 官方 加 密 标 准 【17. 20] 。 

DES 的 工作 原理 为 : 将 明文 分 割 成 许多 64 位 大 小 的 块 ， 每 个 块 用 64 位 密 钥 进行 加 密 ， 实 际 
上 ， 密 钥 由 56 位 数据 位 和 8 位 奇偶 校 验 位 组 成 ， 因 此 只 有 2 个 可 能 的 密码 而 不 是 2 个。 每 块 先 
用 初始 置换 方法 进行 加 密 ， 再 连续 进行 16 次 复杂 的 替换 ， 最 后 再 对 其 施用 初始 置换 的 逆 。 第 i 
步 的 替换 并 不 是 直接 利用 原始 的 密 钥 天 ， 而 是 由 天 与 二 计算 出 的 密 钥 Ki， 详 细 算 法 请 见 参 考 文献 
[17. 20] 。 

DES 具有 这 样 的 特性 ， 其 解密 算法 与 加 密 算法 相同 ， 除 了 密 钥 Ki 的 施加 顺序 相反 以 外 。 

随 着 计算 机 运算 速度 的 提高 和 存储 容量 的 增加 ，DES 所 采用 的 56 位 密码 已 经 越 来 越 引 起 人 
们 的 不 满 。 于 是 在 2000 年 ， 美 国联 邦 政府 采用 了 一 个 新 的 标准 ， 叫 做 AES (Advanced Encryp- 
tion Standard) ， 该 标准 基于 Rijndael 算法 [17.5]， 使 用 的 密码 可 以 是 128 ，192 或 者 256 位 。 仅 
128 位 的 密码 就 已 经 显示 出 新 标准 比 DES 考虑 了 更 多 的 安全 性 ; 通过 参考 文献 【26.34] 可 以 知 
道 ， 如 果 “ 我 们 能 够 研制 出 一 台 可 以 在 一 秒 钟 内 破译 DES 的 计算 机 ， 那 么 这 台 计 算 机 需要 149 
万 亿 年 的 时 间 才 能 破译 一 个 128 位 的 AES 密码 ” (对 原文 略 有 改动 ) 。 对 此 ， 参 考 文献 [17. 5] 
中 有 更 加 深入 的 介绍 。 

2. 公开 密 钥 加 密 

我 们 前 面 已 经 提 到 DES 并 不 是 真正 地 安全 。AES 虽然 更 好 一 些 ,但 许多 人 仍然 认为 如 
果 不 采 用 一 些 智能 的 方法 ， 这 种 机 制 还 是 有 可 能 被 强制 破解 的 。“ 公 开 密 钥 ” 加 密 方法 使 得 
这 些 传统 加 密 技术 过 时 了 。 公 开 密 钥 加 密 方法 中 ， 加 密 算法 和 加 密 密 钥 都 是 公开 的 ， 任 何 
人 都 可 将 明文 转换 成 密 文 。 但 是 相应 的 解密 密 钥 是 保密 的 (公开 密 钥 方 法 包括 两 个 密 钥 ， 
分 别 用 于 加 密 和 解密 ) ， 而 且 无 法 从 加 密 密 钥 推导 出 来 ， 因 此 ， 若 未 被 授权 ， 即 使 是 加 密 者 
也 无 法 进行 解密 。 

公开 密 钥 加 密 思 想 最 初 是 由 Diffie 和 Hellman [17.9] 提出 的 ， 最 著名 的 是 Rivest 、Shamir 
以 及 Adieman [17.17] 提出 的 这 种 机 制 在 实际 中 的 工作 原理 ， 现 在 通常 称 为 RSA 机 制 (以 三 个 
发 明 者 的 首位 字母 命名 ) ， 该 方法 基于 以 下 的 两 个 条 件 : 

1) 已 找到 确定 一 个 数 是 不 是 质数 的 快速 算法 ; 

2) 尚未 找到 确定 一 个 合 数 的 质 因子 的 快速 算法 。 

参考 文献 [17. 12] 给 出 了 一 个 例子 : 确定 一 个 130 位 的 数 是 否 为 质数 只 花 了 大 约 7 分 钟 ， 而 
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确定 两 个 63 位 质数 的 乘积 的 两 个 质 因子 〈 在 同一 台 机 器 ) 需要 40 000 000 000 000 000 年 。 

RSA 方法 的 工作 原理 如 下 : 

1) 任意 选取 两 个 不 同 的 大 质数 p 和 4g， 计 算 乘 积 r=p * 4; 

2) 任意 选取 一 个 大 整数 e，e 与 (p -1) * (gq -1) 互 质 ， 整数 e 用 做 加 密 密 钥 。 注 意 : e 
的 选取 是 很 容易 的 ， 例 如， 所 有 大 于 p 和 9g 的 质数 都 可 用 。 

3) 确定 解密 密 钥 4, 使 4*e 能 被 (p -1) * (9-1) 整除 。 即 : 


d*e= 1 modulo (p-1) * (9g-1) 


根据 e、p 和 9g 可 以 容易 地 计算 出 4， 算 法 可 见 参考 文献 [17.17] 。 
4) 公开 整数 上 和 e,， 但 是 不 公开 d; 
5) 将 明文 P (假设 P 是 一 个 小 于 7 的 整数 ) 加 密 为 密 文 C， 计 算 方 法 为 ， 


C= Pe modulor 


6) 将 密 文 C 解密 为 明文 Pp， 计算 方法 为 : 


P = Ci modulor 


参考 文献 [17. 17] 对 该 方法 的 工作 原理 进行 了 证 明 ， 即 用 4 确实 可 将 密 文 C 复原 为 明文 P。 
然而 只 根据 > 和 e (不 是 P 和 4) 要 计算 出 d 是 不 可 能 的 。 因 此 ,任何 人 都 可 对 明文 进行 加 密 ， 
但 只 有 授权 用 户 (知道 4) 才 可 对 密 文 解密 。 

下 面 举 一 简 单 的 例子 对 上 述 过 程 进行 说 明 ， 在 此 我 们 选取 较 小 的 数字 。 

示例 : 选取 p=3, 9=5, 则 r=15, (p-1) * (g-1) =8。 选取 e=11 (大 于 P 和 9 的 质 
数 ) ， 通 过 : 


dx* 11 = 1 modulo 8 


计算 出 d =3。 
假定 明文 为 整数 13。 则 密 文 C 为 : 
C = P? modulo 工 


1311 modulo 15 
1,792,160,394,037 modulo 15 
7 


复原 明文 P 为 : 


P= Ca modulor 
= 73 modulo 15 
= 343 modulo 15 
= 13 
因为 e 和 4d 互 逆 ， 公 开 密 钥 加 密 方 法 也 允许 采用 这 样 的 方式 对 加 密 信息 进行 签名 ， 以 便 接收 
方 能 确定 签名 不 是 伪造 的 。 假 设 A 和 B 希望 通过 公开 密 钥 加 密 方法 进行 数据 传输 ，A 和 8 分 别 
公开 加 密 算法 和 相应 的 密 钥 ， 但 不 公开 解密 算法 和 相应 的 密 铀 。4 和 8 的 加 密 算法 分 别 是 ECA 
和 ECB ， 解 密 算法 分 别 是 DCA 和 DCB ，ECA 和 DCA 互 北 ，ECB 和 DCB 互 逆 。 
车 4 要 向 B 发 送 明 文 P， 不 是 简单 地 发 送 ECB(P) ， 而 是 先 对 已 施 以 其 解密 算法 DCA， 再 
用 加 密 算法 ECB 对 结果 加 密 后 发 送出 去 。 密 文 C 为 : 


C= ECB ( DCA({P)) 





念 ” 即 使 这 样 ，RSA 方法 仍 有 安全 性 问题 。 参 考 文献 [17. 12] 发 表 于 1977 年 ， 而 在 1990 年 ，Lenstra 和 Manasse 成 功 
地 将 一 个 155 位 数字 进行 了 因数 分 解 【17. 24] ; 他 们 估计 ， 和 使 用 大 约 1000 台 计 算 机 并 行 工作 所 能 进行 的 计算 量 ， 
相当 于 在 单 台 计算 机 上 以 每 秒 100 万 条 指令 的 速度 运行 273 年 的 工作 量 。 这 155 位 的 整数 是 第 9 个 费 马 数 2” +1 
(注意 512 =29 )。 还 可 参阅 参考 文献 【17. 14] ， 里 面 给 出 了 一 种 完全 不 同 但 成 功 的 破解 RSA 的 方法 。 
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用 户 8 收 到 C 后 ， 先 后 施 以 其 解密 算法 DCB 和 加 密 算 法 ECA， 得 到 明文 忆 : 


ECA ( DCB (CcC)) 
BCA { DCB ( ECB ( DCA ( ?) 
ECA ( DCA (PpP) /* pta 和 scB 相 互 抵消 */ 
Pp /* ECA 和 DCA 相互 抵消 */ 

这 样 B 就 确定 报 文 确实 是 从 4 发 出 的 ， 因 为 只 有 当 加 密 过 程 利 用 了 DCA 算法， 用 ECA 才能 
获得 P， 只 有 4 才 知 道 DCA 算法 ， 其 他 人 ， 即 使 是 B 也 不 能 伪造 4 的 签名 。 


17.6 SQL 的 支持 


目前 的 SQL 标准 只 支持 自主 存 取 控 制 。 与 安全 性 相关 的 SQL 性 质 有 两 个 : 视图 机 制 ， 可 用 
于 对 未 授权 的 用 户 隐藏 敏感 数据 ; 授权 子 系统 ， 人 允许 具有 特定 权限 的 用 户 有 选择 地 动态 地 将 这 些 
权限 授予 其 他 用 户 ， 并 在 以 后 回收 这 些 权限 。 这 两 个 性 质 将 在 下 面 讨论 : 

1. 视图 和 安全 性 

为 了 说 明 SQL 中 用 于 安全 性 目的 的 视图 的 使 用 方法 ， 给 出 17.2 节 例 2 ~4 的 视图 例子 对 应 
的 SQL 表示 ， 如 下 所 示 。 


1) CREATE VIEW LS AS 
SELECT S.S#, S.SNAME, S.STATUS, S.CITY 


| 


FROM S 
WHERE  S.CITY = 'London' 


视图 定义 了 将 被 授权 的 数据 ， 而 授权 是 通过 GRANT 语句 实现 的 ， 如 : 


GRANT SELECT, DELETE, UPDATE ( SNAME, STATUS ) 
ON LS 
TO Dan, Misha ; 


注意 : 在 SQL 中 授权 是 通过 GRANT 语句 而 不 是 通过 假定 的 “CREATE AUTHORITY” 语 句 
定义 的 ， 因 此 未 对 其 命名 ， 而 完整 性 约束 是 必须 命名 的 ( 见 第 9 章 )。 


2) CREATE VIEW SSPPO A 

SELECT S.S#, 5,. SNAME, S.STATUS, S.CITY 

FROM 

WHERE EXISTS 

( SELECT * FROM SP 
WHERE EXISTS 

SELECT * FROM P 
WHERE  S.S# = SP.S# 
AND SP.P# = P.P# 
AND P.CITY = '0slo' ) ) ; 


~ 


相应 的 GRANT 语句 : 
GRANT SELECT ON SSPPO TO Lars ; 


3) CREATE VIEW SSQ AS 
SELECT S.S#, ( SELECT SM ( SP.QTY ) 
FROM 
WHERE sp. S# = S.S# ) AS SO 
FROM SsS; 


相应 的 GRANT 语句 : 


GRANT SELECT ON SSQ TO Fidel ; 


17. 2 节 中 的 示例 5 是 关于 环境 依赖 的 授权 。SQL 支持 各 种 无 参数 内 置 运算 符 ， 如 CURRENT_ 
USER、CURRENT_DATE、CURRENT_TIME 等 ， 这 些 运 算 符 可 用 于 定义 环境 依赖 视图 。 注 总: 
SQL 不 支持 原 例 5 的 DAY( ) 运 算 符 。 例 : 


CREATE VIEW S_NINE_TO_FIVE A 
SELECT S.S#, S.SNAME, $s. STATUS, S.CITY 
FROM 5 
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WHERE CURRENT TIME > TIME '09:00:00"' 
AND CURRENT TIME < TIME ‘17:00:00' 


相应 的 GRANT 语句 : 


GRRNT SELECT，UPDRTE ( STATUS ) 
ON S_NINE_TO_FIVE 
TO ACCOUNTING ; 


注意 : S_NINE_TO_FIVE 是 一 个 很 特别 的 视图 ! 它 的 值 随 着 时 间 的 变化 而 变化 ， 即 使 其 内 
在 的 数据 未 改变 。 另 外 ， 包 含 内 置 操作 符 CURRENT_USER 的 视图 定义 对 于 不 同 的 用 户 其 值 也 不 
同 。 这 样 的 “视图 ”与 通常 意义 上 的 视图 并 不 相同 ， 事实 上 它们 是 参数 化 的 视图 。 至 少 从 概念 
上 讲 ， 人 允许 用 户 定 义 自己 的 (潜在 的 参数 化 的 ) 值 依赖 函数 更 可 取 ， 像 S NINE_TO_FIVE 这 样 
的 “视图 ”就 可 看 作 这 类 函数 。 

前 面 的 例子 说 明了 视图 机 制 “ 免 费 ” 提 供 了 一 种 重要 的 安全 性 方法 ， 称 其 “免费 ”是 因为 
该 机 制 在 系统 中 本 来 用 于 其 他 用 途 。 另 外 ， 许 多 授权 检查 ， 甚 至 是 值 依赖 的 检查 ， 都 可 在 编译 时 
(而 无 须 等 到 运行 时 ) 进行 ， 这 对 性 能 改善 有 着 很 重要 的 意义 。 然 而 ， 基 于 视图 的 安全 性 方法 偶 
尔 也 会 遇 到 一 点 麻烦 ， 尤 其 是 当 用 户 希 望 在 同一 时 间 对 同一 个 表 的 不 同 子 集 拥 有 不 同 的 权限 时 。 
举 个 例子 : 考虑 这 样 的 应 用 ， 扫 描 并 显示 所 有 London 的 零件 ， 同 时 对 其 中 红色 的 零件 进行 更 新 。 

2. GRANT 和 REVOKE 

视图 机 制 用 不 同 的 方式 将 数据 库 划 分 为 多 个 片段 ， 使 得 未 授权 用 户 无 法 获取 敏感 信息 ， 然 而 它 
并 未 说 明 授 权 用 户 在 这 些 片段 上 能 执行 哪些 操作 。 这 个 任务 (前 面 例子 中 已 涉及 ) 将 由 GRANT 语 
句 来 承担 ， 在 这 里 将 进行 详细 讨论 〈 不 过 我 们 还 是 会 略 去 对 一 些 更 加 深奥 问题 的 讨论 ) 。 

首先 注意 任何 一 个 对 象 的 创建 者 都 被 自动 授予 了 该 对 象 上 的 所 有 权限 。 举 个 例子 ， 基 表 了 的 
创建 者 将 被 自动 授予 表 T 上 的 SELECT、INSERT、DELETE 、UPDATE 、REFERENCES 以 及 
TRIGGER?” 权限 (下 面 将 对 这 些 权 限 一 一 解释 )。 而 且 这 些 权限 都 被 授予 了 “with grant authori- 
ty”， 这 表明 拥有 这 些 权限 的 用 户 还 可 以 将 这 些 权限 转 授 给 其 他 用 户 。 

GRANT 语句 的 语法 如 下 : 

GRANT <privilege commalist> 

ON <object> 


TO <user ID commalist> 
[ WITH GRANT OPTION ] ; 


解释 : 
1) 合法 的 < privilege > 有 USAGE、UNDER 、SELECT、INSERT、DELETE 、UPDATE、 
REFERENCES 、TRIGGER 以 及 EXECUTE。SELECT、INSERT、UPPATE 以 及 REFERENCES 权 
限 可 定义 于 列 级 。 注 意 : 也 可 指定 ALL PRIVILEGES, 但 其 语义 不 太 直 观 〈( 见 参考 文献 
[4. 20])。 
a USAGE 权限 用 在 特定 的 用 户 自 定义 类 型 上 以 便 使 用 该 类 型 。 
nm UNDER 权限 (a) 用 在 特定 的 用 户 自 定义 类 型 上 以 便 创建 这 个 类 型 的 子 类 (b) 用 在 特定 
的 表 上 以 创建 其 子 表 (可 分 别 参 见 第 20 和 26 章 )。 

s SELECT, INSERT, DELETE 和 UPDATE 权限 都 已 经 讲 过 了 。 

REFERENCES 权限 用 在 特定 的 表 上 以 给 出 其 完整 性 约束 (可 以 是 任意 的 约束 ， 而 不 仅仅 
用 于 参照 完整 性 ) 。 

s TRIGGER 权限 用 于 特定 的 基 表 以 在 其 上 创建 一 个 触发 器 。 

se EXECUTE 权限 用 于 特定 的 SQL 例 程 以 调用 该 例 程 。 

2) 合法 的 <object > 为 类 型 < type name > ， 表 < table name > ， 以 及 对 象 < specific routine 
designator > (用 于 EXECUTE 权限 ) ， 本 书 不 做 细节 解释 。 注 意 : 其 中 “TABLE” (实际 是 可 选 
的 ) 包括 视图 或 基本 表 。 





@ ”UNDER 权限 大 概 也 是 (这 个 权限 是 有 意义 的 ) ， 但 是 标准 中 并 没有 提 到 该 权限 。 
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3) <user 1D commalist > 可 用 关键 字 PUBLIC 替代 ， 意 味 着 系统 中 所 有 的 用 户 。 注 意 : SQL 
也 支持 用 户 自 定 义 的 角色 (roles) ; ACCOUNTING 就 是 一 个 例子 ， 它 代表 accounting 部 门 的 所 有 
成 员 。 角 色 一 旦 被 创建 就 可 以 像 一 个 普通 用 户 ID 一 样 被 赋 巴 权限。 而且， 角色 本 身 也 可 以 像 权 
限 一 样 被 赋 给 一 个 用 户 或 者 另 一 个 角色 。 也 就 是 说 ， 角 色 是 SQL 用 于 支持 用 户 群 组 的 一 种 机 制 
(参见 17. 1 节 ) 。 

4) WITH GRANT OPTION， 意 味 着 将 指定 对 象 上 的 指定 的 权限 授予 指定 的 用 户 ， 同 时 带 有 
授权 权限 ， 即 指定 的 用 户 可 将 这 些 权限 继续 转 授 给 其 他 用 户 。 当 然 ， 要 指定 WITH GRANT OP- 
TION 首先 要 求 发 出 GRANT 语句 的 用 户 必须 具备 授权 权限 。 

车 用 户 4 向 用 户 如 授予 了 权限 ， 则 也 可 从 用 户 B 收回 权限 。 收 回 权 限 可 通过 REVOKE 语句 
实现 ， 其 语法 为 ， 

REVOKE [ GRANT OPTION FOR ] <privilege commalist> 

ON <object> 
FROM <user ID commalist> 
<behavior> ， 
其 中 : a) GRANT OPTION FOR 意味 着 只 有 授权 权限 被 收回 ; 
b) <privilege commalist > 、<object> 以 及 < user ID commalist > 与 GRANT 语句 中 的 
含义 相同 ; 
c) <behavior > 或 者 是 RESTRICT, 或 者 (通常 ) 是 CASCADE。 例如 : 

1) REVOKE SELECT ON S FROM Jacques, Anne, Charley RESTRICT ; 


2) REVOKE SELECT, DELETE, UPDATE ( SNAME, STATUS ) 
ON LS FROM Dan, Misha CASCADE ; 


3) REVOKE SELECT ON SSPPO FROM Lars RESTRICT ; 
4) REVOKE SELECT ON SSQ FROM Fidel RESTRICT ; 


现在 来 看 RESTRICT 与 CASCADE: 假设 p 是 某 对 象 上 的 某 权限 ,假设 用 户 4 将 p 授 给 用 户 
B8，B 又 将 其 转 授 给 用 户 C。 如 果 4 从 B 回收 权限 p， 将 会 发 生 什 么 事情 呢 ? 首先 ， 假设 RE- 
VOKE 成 功 地 执行 了 。 那 么 用 户 C 所 拥有 的 权限 p 将 不 再 有 效 ， 因 为 其 由 用 户 B 转 授 ， 而 B8 不 
再 拥有 权限 p。RESTRICT 与 CASCADE 选项 就 是 为 了 避免 发 生 这 种 情形 ， 其 中 如 果 有 可 能 导致 
上 述 情形 时 ，RESTRICT 将 会 使 得 REVOKE 以 失败 告终 ; 而 CASCADE 将 会 引起 上 述 所 有 的 权 
限 都 被 回收 。 

删除 一 个 类 型 、 表 、 列 或 例 程 将 自动 从 所 有 用 户 回收 被 删除 对 象 上 的 所 有 权限 。 


17.7 小 结 


本 章 讨论 了 数据 库 安全 性 问题 的 不 同方 面 。 首 先 对 安全 性 和 完整 性 进行 了 比较 : 安全 性 确保 
用 户 被 允许 做 其 想 做 的 事情 ;完整 性 确保 用 户 所 做 的 事情 是 正确 的 。 换 名 话说 ， 安 全 性 即 保护 数 
据 防 止 未 授权 的 存 取 。 

安全 性 由 DBMS 的 安全 性 子 系统 实施 ， 安 全 人 性子 系统 将 对 所 有 的 存 取 请 求 检 查 存 储 在 系统 
目录 中 的 安全 性 约束 〈 或 者 是 授权 ) 。 首 先 讨论 的 是 自主 存 取 控制 模式 ， 在 该 模式 下 ， 对 指定 对 
象 的 存 取 将 取决 于 该 对 象 的 所 有 者 。 自 主 模式 下 的 每 个 授权 都 包括 名 字 、 权 限 集 (RETRIEVE、 
INSERT 等 ) 、 相 应 的 关系 变量 〈 即 权限 所 施 予 的 数据 ) 以 及 用 户 集 。 这 样 的 授权 可 被 用 于 提供 
值 依赖 、 值 无 关 、 统 计 汇 总 以 及 环境 依赖 控制 。 审 计 追 踪 可 用 于 记录 试图 破坏 安全 性 的 行为 。 除 
此 以 外 还 简单 讨论 了 请 求 修改 这 一 用 于 自主 模式 的 实现 技术 〈 该 技术 最 早 在 mgres 原型 系统 中 的 
QUEL 语言 中 运用 ) 。 

强制 存 取 控 制 模式 中 每 个 对 象 具有 密级 ， 而 每 个 用 户 具 有 许可 证 级 别 。 我 们 解释 了 该 模式 下 
的 存 取 规 则 ， 对 美国 国防 部 在 橘 皮 书 和 紫 皮 书 中 定义 的 安全 性 分 级 模式 进行 了 概要 介绍 ， 并 简单 
地 讨论 了 多 级 关系 变量 和 多 重 实例 的 思想 。 

统计 数据 库 有 其 特有 的 安全 性 问题 。 统 计数 据 库 中 有 着 大 量 的 有 关 个 体 的 相关 敏感 信息 ， 只 
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向 用 户 提供 统计 汇总 信息 ， 但 通过 追踪 者 的 方式 其 安全 性 很 容易 受到 破坏 。 事 实 上 ， 由 于 数据 仓 
库 系 统 的 出 现 ， 该 问题 应 受到 足够 的 重视 (请 参阅 第 22 章 ) 。 

本 章 介绍 了 数据 加 密 的 基本 思想 : 替换 和 置换 ， 解 释 了 数据 加 密 标 准 (DES) 和 高 级 加 密 标 
准 (AES) ， 并 描述 了 公开 密 钥 加 密 方法 的 工作 原理 ， 特 别 给 出 了 RSA (质数 ) 方法 的 一 个 例 
子 。 另 外 还 介绍 了 数字 签名 的 概念 。 

另外 ， 给 出 了 SQL 中 描述 安全 性 的 方法 ， 用 于 隐藏 信息 的 视图 的 使 用 ， 以 及 利用 GRANT 
和 REVOKE 控制 用 户 对 数据 对 象 拥有 的 权限 (主要 是 基 表 和 视图 ) 。 

最 后 必须 强调 一 点 ， 即 使 DBMS 提供 了 大 量 的 安全 性 控制 措施 ， 如 果 能 避 开 这 些 措施 ， 这 些 控 
制 也 是 没 用 的 。 在 DB2 中 ， 数 据 库 是 以 操作 系统 文件 的 形式 物理 存储 在 磁盘 上 的 ， 如 果 有 可 能 通 
过 传统 的 操作 系统 服务 从 传统 的 程序 存 取 那些 文件 ，DB2 的 安全 机 制 将 失效 。 因 此 ，DB2 与 它 的 伴 
随 系统 〈 即 底层 的 操作 系统 ) 协同 工作 可 保证 整个 系统 是 安全 的 ， 其 细节 本 章 不 予 讨论 。 


习题 
17.1 假定 关系 变量 STATS 与 17. 4 节 中 的 定义 相同 ， 如 下 所 示 : 


STATS { NAME, SEX, CHILDREN, OCCUPATION, SALARY, TAX, AUDITS } 
KEY { NAME } 


采用 17.2 节 中 的 语言 定义 下 面 给 定 的 授权 : 
a. 用 户 Ford 对 整个 关系 变量 具有 RETRIEVE 权限 ; 
b. 用 户 Smith 对 整个 关系 变量 具有 INSERT 和 DELETE 权限 ; 
c. 每 个 用 户 只 对 自己 的 元 组 具有 RETRIEVE 权限 ; 
d 用户 Nash 对 整个 关系 变量 具有 RETRIEVE 权限 ， 但 只 对 SALARY 和 TAX 属性 具有 UPDATE 
权限 ; 
e. 用 户 Todd 只 对 NAME 、SALARY 和 TAX 属性 具有 RETRIEVE 权限 ; 
f 用 户 Ward 的 RETRIEVE 权限 与 Todd 一 样 ， 而 只 对 SALARY 和 TAX 属性 具有 UPDATE 权限 ; 
g. 用 户 Pope 具有 对 职业 为 preacher 的 元 组 的 所 有 权限 ; 
h. 用 户 Jones 具有 对 职业 为 非特 殊 性 质 的 元 组 的 DELETE 权限 ， 这 里 非特 殊 人 性 质 的 职业 为 人 数 超过 
10 个 的 职业 ; 
i. 用 户 King 具有 对 每 个 职业 最 高 和 最 低 工 资 的 RETRIEVE 权限 。 
17.2 若 考 虑 对 定义 和 删除 关系 变量 、 定 义 和 删 除 视 图 以 及 定义 和 删除 权限 等 操作 的 控制 ， 应 如 何 扩展 
AUTHORITY 定义 的 语法 ? 
17.3 ”再 考虑 图 17-2， 假 设 我 们 知道 Hal 是 一 个 至 少 有 两 个 孩子 的 家 长 。 利 用 个 体 追 踪 者 写 出 一 系列 统计 查 
询 以 获得 Hal 的 Tax 值 。 就 像 17. 4 节 一 样 ， 假 定 系统 对 于 集合 基数 小 于 2 或 大 于 8 的 查询 不 响应 。 
17.4 重复 17.3 的 问题 ， 只 是 不 采用 个 体 追 踪 者 ， 而 采用 通用 追踪 者 。 
17.5 ”对 下 面 的 密 文 进行 解密 ， 密 文采 用 与 17.5 节 “AS KINGFISHES CATCH FIRE” 例 子 类 似 的 方式 ， 
但 是 利用 的 是 5 字 节 的 加 密 密 码 : 


PNNAAE 


WPpPYO 
CRWHUNY 
友和 于 名 切 
HKG 
台中 过 证 站 


17.6 通过 RSA 公开 密 钥 加 密 方 法 进行 工作 ， 给 定 P=7、4 =5、e=17 以 及 明文 P=3。 
17.7 ”你 能 想 出 任何 可 能 由 加 密 引 起 的 实现 上 的 问题 以 及 其 他 不 利 条 件 吗 ? 

17.8 给 出 习题 17. 1 的 SQL 解决 方案 。 

17.9 写 出 将 习题 17. 8 的 解决 方案 中 所 授予 的 权限 删除 的 SQL 语句 。 
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第 18 章 优 化 


18.1 引 谨 


对 于 关系 数据 库 系统 来 说 ， 优 化 既是 挑战 也 是 机 遇 。 称 之 为 挑战 ， 是 因为 为 了 达到 所 需 的 性 
能 要 求 ， 数 据 库 系统 必须 使 用 优化 技术 ; 而 说 它 是 机 遇 ， 是 因为 关系 表达 式 具 有 的 高 度 语 义 层次 
使 得 优化 能 够 进行 。 而 在 非 关系 系统 中 ， 用 户 的 查询 使 用 低层 次 的 语义 表达 ， 任 何 的 “优化 ” 
都 由 用 户 来 进行 (“优化 ”之 所 以 使 用 引号 引起 来 ， 是 因为 一 般 谈 到 的 优化 指 的 是 由 系统 自动 进 
行 的 ) ， 换 旬 话 说 ， 在 这 样 的 系统 中 ， 是 由 用 户 而 不 是 由 机 器 来 决定 使 用 什么 样 的 底层 操作 及 操 
作 的 顺序 。 而 且 ， 如 果 用 户 作出 了 错误 的 决定 ， 那 么 系统 对 此 也 是 无 能 为 力 的 。 同 时 还 应 当 注 意 
到 ， 这 就 意味 着 这 种 系统 的 用 户 必须 是 编程 高 手 。 仅 此 一 点 ， 就 使 得 许多 普通 用 户 无 法 从 该 数据 
库 系 统 中 受益 。 

而 自动 优化 系统 的 优势 就 在 于 用 户 不 必 担 心 如 何 最 好 地 表达 他 们 的 查询 要 求 (也 就 是 如 何 
描述 查询 以 获得 最 优 的 系统 性 能 ) 。 事 实 上 ， 优 化 器 完全 有 可 能 比 用 户 做 得 更 好 ， 这 是 有 许多 原 
因 的 ， 比 如 ; 

1) 一 个 好 的 优化 器 具有 一 些 信息 而 用 户 通 常 不 具备 。 比 如 说 ， 它 有 一 些 统计 信息 ， 例 如 : 

a 每 个 类 型 中 的 值 的 个 数 

a 每 个 基 表 中 的 当前 元 组 的 数目 

m 每 个 基 表 中 的 每 个 属性 的 唯一 值 的 个 数 

s 这 些 唯一 值 在 每 个 属性 中 出 现 的 次 数 
等 等 (所 有 这 些 信息 都 保存 在 系统 目录 表 中 一 一 见 18.5 节 )。 因 此 ， 优 化 器 可 以 对 给 定 查 询 的 
执行 策略 作出 更 为 精确 的 估计 ， 从 而 更 有 可 能 选择 最 高 效 的 执行 方案 。 

2) 而 且 ， 当 数据 库 统 计 信 息 改 变 时 ， 可 能 需要 改变 执行 策略 ; 换 句 话说 ， 这 时 需要 再 优 
化 。 在 关系 系统 中 ， 再 优化 很 简单 一 一 只 需要 让 系统 的 优化 器 重新 处 理 一 遍 原来 的 查询 请 求 。 而 
在 非 关 系 系统 中 ， 再 优化 就 意味 着 重 写 源 程序 ， 而 且 很 有 可 能 没 人 愿意 做 这 件 事情 。 

3) 再 者 ， 优 化 器 是 个 程序 ， 因 此 它 要 比 人 类 用 户 耐 心得 多 。 优 化 器 可 以 考虑 一 个 给 定 查询 
的 成 百 上 千 的 执行 策略 ， 而 人 类 用 户 恶 怕 很 难 考虑 多 过 三 、 四 个 的 执行 策略 。 

4) 最 后 ， 优 化 器 可 以 被 认为 是 包含 着 最 优秀 程序 员 的 技巧 和 服务 的 程序 。 因 此 ， 任 何人 都 
可 使 用 优化 器 包含 的 这 种 技巧 和 服务 一 一 这 就 意味 着 更 多 的 用 户 可 以 以 一 种 高 效率 、 低 代价 的 方 
式 得 到 这 些 资源 。 

在 本 章 开 头 提 到 的 优化 能 力 〈 也 就 是 说 ， 关 系 查询 是 可 优化 的 ) 是 关系 系统 提供 的 一 种 功 
能 ， 而 以 上 这 些 可 作为 对 这 一 观点 的 证 据 支 持 。 

那么 ， 优 化 器 的 主要 目的 就 是 为 计算 所 给 定 的 关系 表达 式 选 择 一 个 高 效 的 执行 策略 。 在 本 章 
中 ,我们 将 描述 一 些 在 这 个 过 程 中 所 使 用 的 基本 原则 和 技术 。 在 下 面 ，18. 2 节 介 绍 了 一 个 具有 
启发 性 的 例子 ，18. 3 节 给 出 了 优化 器 如 何 工作 的 概述 ，18. 4 节 详 细 描 述 了 这 个 过 程 中 一 个 非常 
重要 的 方面 ， 即 表达 式 变 换 (expression transformation) ， 也 称 为 查询 改写 (query rewrite)。18.5 
节 简要 讨论 了 数据 库 统计 (database statistics) 的 问题 。18. 6 节 详 细 描 述 了 查询 分 解 (query de- 
composition) 的 方法 。18. 7 节 阐 述 了 关系 操作 符 如 何 实现 的 问题 ， 并 且 简 要 讨论 如 何 使 用 18. 5 
节 中 所 提出 的 统计 方法 来 进行 一 个 代价 估算 。 最 后 ，18. 8 节 对 整 章 作 了 总 结 。 

最 后 提出 一 个 引导 性 的 评价 : 我 们 通常 把 这 个 主题 称 为 查询 优化 。 不 过 这 个 术语 容易 让 人 误 
解 ， 因 为 无 论 如 何 ， 除 了 数据 库 的 交互 式 查询 外 ， 需 要 优化 的 表达 式 〈 即 查询 ) 还 可 能 产生 于 
某 些 上 下 文中 ; 特别 地 ， 从 本 质 上 看 ， 它 可 能 是 某 个 更 新 操作 的 一 部 分 而 不 仅仅 是 一 个 查询 。 而 
上 且 ， 术语 “优化 ”本 身 就 有 点 夸大 了 ， 因 为 并 不 能 保证 所 选择 的 实现 策略 在 任何 方面 都 是 最 优 
的 。 事 实 上 ， 通 常 所 谓 的 “优化 ”策略 只 是 在 原来 没有 优化 的 查询 上 的 一 个 改进 。( 但 是 在 某 些 





特殊 场合 中 ， 就 可 以 认为 其 选择 的 执行 策略 确实 是 最 优 的 。 例 如 可 以 参看 参考 文献 【18. 30 ] ， 
还 可 参看 附录 A。) 


18. 2 一 个 启发 性 的 示例 


我 们 以 一 个 简单 的 示例 开始 (这 个 例子 已 在 第 7 章 的 7.6 节 中 详细 描述 过 ) ， 它 给 我 们 提供 
了 显著 改进 查询 执行 策略 的 思路 。 这 个 查询 是 “给 出 供应 零件 P2 的 供应 商 的 名 称 ”。 以 下 是 它 
的 代数 表达 式 : 


( ( SP JOIN S ) WHERE P# = P# ('P2') ) { SNAME } 


假设 这 个 数据 库 有 100 个 供应 商 和 10 000 个 发 货 ， 其 中 只 有 50 个 是 有 关 零 件 P2 的 。 为 简单 
起 见 ， 还 假设 关系 变量 $ 和 SP 分 别 存放 在 磁盘 上 两 个 独立 的 文件 中 ， 每 个 元 组 对 应 一 个 记录 。 
这 样 ， 如 果 系 统 不 对 该 表达 式 进行 任何 优化 ， 那 么 对 该 表达 式 的 代价 估计 结果 如 下 : 

1) 连接 SP 和 S (连接 属性 S#) : 这 一 步 包 括 读 10 000 个 发 货 ; 对 这 100 个 供应 商 ， 每 个 要 
读 10 000 次 〈 即 对 10 000 个 发 货 的 每 一 个 要 读 一 次 供应 商 ); 要 构造 一 个 中 间 结 果 集 保存 这 
10 000 个 已 连接 的 元 组 ; 并 且 将 这 10 000 个 已 连接 的 元 组 写 回 到 磁盘 上 (我 们 假设 主 存 中 已 没有 
空间 存放 这 个 中 间 结 果 集 ) 。 

2) 从 第 1) 步 的 结果 集中 选择 零件 为 P2 的 元 组 : 这 一 步 包 括 将 这 10 000 个 已 连接 的 元 组 重 
新 读 和 人 主 存 ， 但 产生 一 个 仅 有 50 个 元 组 的 结果 集 ， 这 里 我 们 假设 这 个 结果 集 可 以 放 在 主 存 中 。 

3) 将 第 2) 步 的 结果 集 在 属性 SNAME 上 投影 : 这 一 步 产生 最 终 的 结果 集 (至 多 50 个 元 
组 ， 可 以 放 在 内 存 中 ) 。 

下 面 这 个 过 程 等 价 于 上 面 这 个 过 程 ， 即 产生 同样 的 结果 集 ， 但 明显 要 高 效 得 多 : 

1) 从 SP 中 选择 零件 为 P2 的 元 组 : 这 一 步 包括 读 10 000 个 元 组 ， 但 产生 只 有 50 个 元 组 的 
结果 集 ， 我 们 假设 这 个 结果 集 可 以 放 人 内 存 中 。 

2) 把 第 1) 步 的 结果 集 和 S 进行 连接 〔 连 接 属性 S#) : 这 一 步 包 括 读 100 个 供应 商 (只 读 
一 次 ， 而 不 是 每 个 P2 发 货 就 读 一 遍 ) ， 再 次 产生 一 个 只 有 50 个 元 组 的 结果 集 (仍然 保存 在 主 存 
中 ) 。 

3) 将 第 2) 步 的 结果 集 在 属性 SNAME 上 投影 (同上 个 过 程 的 第 3) 步 ) : 这 一 步 产生 最 终 
的 结果 集 ( 至 多 50 个 元 组 ， 可 以 放 在 内 存 中 ) 。 

以 上 两 个 过 程 中 的 第 一 个 包括 总 共 1 030 000 个 元 组 的 IO， 而 第 二 个 只 有 10 100 个 元 组 的 
LO。 很 明显 ， 如 果 我 们 将 “元 组 的 VO 次 数 ” 作 为 性 能 计算 标准 ， 那 么 第 二 个 过 程 就 要 比 第 一 
个 快 上 100 倍 。 同 样 清楚 的 是 ， 我 们 希望 使 用 第 二 种 实现 方案 而 非 第 一 种 。 注 意 : 实际 当中 ， 应 
当 以 页 面 VO 次 数 作为 标准 而 不 是 元 组 IO 次 数 ， 所 以 为 了 简化 我 们 不 妨 假设 每 个 元 组 被 单独 存 
储 在 一 个 页 面 上 。 

可 以 看 到 ， 在 执行 代数 表达 式 中 的 一 个 很 简单 的 变化 ， 即 先 做 选择 后 再 做 连接 ， 而 不 是 先 做 
连接 后 做 选择 ， 就 使 得 执行 的 性 能 有 了 戏剧 性 的 改变 。 而 且 ， 如 果 发 货 表 在 P# 属 性 上 有 索引 或 
者 散 列 ， 那 么 第 1) 步 读 人 的 基数 (cardinality) 将 从 10 000 降 到 50， 这 将 使 执行 性 能 比 原来 有 
近 7000 倍 的 提高 。 同 样 ， 如 果 供 应 商 表 在 S# 属 性 上 建 有 索引 或 者 散 列 ， 那 么 在 第 2) 步 中 读 人 
的 供应 商 的 基数 将 从 100 降 到 50， 这 将 使 执行 性 能 比 原来 提高 10 000 倍 。 这 就 意味 着 ， 如 果 原 
来 的 没有 优化 的 查询 需要 运行 3 个 小 时 ， 那 么 优化 过 的 版 本 只 需要 不 到 1 秒 的 时 间 ， 而 且 更 大 程 
度 的 提高 都 有 可 能 。 

前 面 的 这 个 例子 虽然 简单 ， 但 足以 说 明 为 什么 查询 优化 是 必要 的 。 这 个 例子 也 可 以 说 明 在 实 
际 中 什么 样 的 优化 是 可 能 的 。 在 下 一 节 中 ,我 们 将 对 优化 问题 提出 一 个 系统 解决 方案 的 框架 ; 尤 
其 是 ,我 们 将 解释 如 何 把 优化 问题 分 解 为 一 系列 独立 的 子 问题 。 这 为 下 面 进一步 讨论 和 理解 优化 
策略 和 技术 提供 了 便利 的 基础 。 


18. 3 ”查询 处 理 概 述 
我 们 可 以 将 查询 处 理 分 为 四 个 大 的 阶段 (参看 图 18-1) : 





1 ) 将 查询 转换 为 内 部 格式 。 
2) 将 内 部 格式 转换 为 规范 格式 。 
3) 为 执行 选择 低层 调用 。 





4) 生成 并 选择 最 低 代 价 的 查询 计划 。 视图 处 理 

以 下 我 们 将 详细 说 明 这 四 个 阶段 。 译 

1. 阶段 1: 将 查询 转换 为 内 部 格式 关系 代数 

第 一 阶段 包括 将 原 查 询 转 换 为 某 种 内 部 格式 以 便 表达 式 
于 机 器 处 理 。 这 样 做 可 以 消除 外 部 考虑 (比如 考虑 查 表达 式 转换 
询 语 言 严 格 语法 中 的 授 词 现象 )， 并 且 给 接 下 来 的 优化 代价 估算 等 
过 程 铺 平 道路 。 注 意 : 视图 处 理 ， 即 用 定义 视图 的 表 
达 式 来 蔡 代 对 视图 的 引用 ， 也 是 在 这 个 阶段 进行 的 。 优化 后 的 代码 


有 一 个 明显 的 问题 是 : 这 种 内 部 格式 应 当 遵 循 什 
么 样 的 形式 呢 ? 不 管 遵循 什么 样 的 形式 ， 凡 是 外 部 的 
查询 语言 能 够 表达 的 查询 ， 都 应 当 能 用 它 来 表示 。 这 
种 形式 还 应 当 是 尽量 中 立 的 ， 这 样 它 就 不 至 于 倾向 选 
择 某 些 查询 计划 。 这 种 内 部 格式 通常 为 某 种 抽象 语法 
树 (abstract syntax tree) 或 者 是 查询 树 (query tree ) 。 


运行 时 管 | 执行 
Ea 
结果 


例如 ， 图 18-2 画 的 就 是 对 18. 2 节 中 例子 (“给 出 供应 零 图 18-1 查询 处 理 流 程 
件 P2 的 供应 商 的 名 称 ”) 的 一 种 可 能 的 查询 树 表 示 方 
法 。 
为 了 说 明 方便 ， 假 设 这 种 内 部 格式 是 我 们 已 经 热 知 的 关 大 
系 代数 或 者 是 关系 演算 的 形式 。 比 方 说 ， 像 图 18-2 这 样 的 树 
就 可 以 用 关系 代数 或 者 是 关系 演算 的 形式 来 等 价 地 表示 出 在 SNAME 上 投影 
来 。 在 这 里 ， 我 们 规定 只 遵循 关系 代数 的 表示 方法 。 因 此 ， 
可 以 将 图 18-2 用 内 部 格式 表达 如 下 (这 个 关系 代数 表达 式 选择 P# 
在 前 面 已 经 出 现 过 )9 : | 
{ ( SP JOIN S ) WHERE P# = P# ('P2') ) { SNAME } | 选择 属性 | 
2. 阶段 2: 将 内 部 格式 转换 为 规范 格式 SP 5 





在 这 一 阶段 中 ， 优 化 器 执行 一 系列 “保证 能 够 优化 ”的 ”图 18-2 “给 出 供应 零件 P2 的 供 
优化 过 程 ， 而 不 必 考 虑 实际 数据 的 值 以 及 数据 库 的 存 取 路 应 商 的 名 称 ”( 查询 树 ) 
径 。 可 以 这 么 做 的 关键 在 于 ， 至 少 从 表面 上 来 看 ， 即 便 是 最 
简单 的 查询 ， 关 系 语言 也 能 够 让 用 户 将 它 以 多 种 方式 表达 出 来 。 例 如 ， 在 SQL 中 ， 即 便 不 考 
虑 类 似 “4 = B 替换 为 B = 4 或 者 是 p AND 4 替换 为 a AND P” 之 类 的 变换 ， 像 “给 出 供应 
零件 P2 的 供应 商 的 名 称 ” 这 样 简单 的 查询 仍然 可 以 用 几 十 种 方法 来 表示 ”。 而 且 ， 查 询 的 性 
能 也 不 应 当 因 为 书写 的 方式 不 同 而 有 所 差异 。 因 此 ， 查 询 处 理 的 下 一 步 就 是 将 这 些 内 部 表示 
转换 为 等 价 的 规范 格式 ( 见 下 一 段 ) 。 这 样 做 的 目的 是 为 了 消除 某 些 表面 上 的 差异 ， 更 重要 的 
是 ， 找 到 一 种 在 某 些 方面 比 原 查询 更 为 高 效 的 表示 方法 。 

关于 “规范 格式 ”的 注释 : 规范 格式 的 概念 在 许多 数学 的 分 支 以 及 相关 学 科 中 都 是 十 分 
重要 的 。 它 可 以 按 如 下 方式 定义 : 给 定 (比方 说 查询 ) 对 象 集 C， 并 定义 它们 之 间 等 价 的 规 
则 (比方 说 规则 可 以 定义 为 : 查询 gl 和 92 是 等 价 的 ， 当 且 仅 当 41 和 42 产生 相同 的 结果 





QO ”事实 上 ， 把 原始 查询 映射 为 等 价 的 关系 代数 正 是 一 些 商业 SQL 优化 器 所 采用 的 方法 。 

他 ”然而 我 们 注意 到 ，SQL 语言 在 这 个 问题 上 表现 得 更 为 突出 (参见 第 8 章 练习 8. 12 和 参考 文献 [4. 191)。 其 
他 语言 如 关系 代数 或 关系 演算 ， 并 没有 对 同 -个 请 求 用 很 多 种 不 同 的 表示 方法 。SQL 的 这 种 不 必要 的 “灵活 
性 ”实际 上 造成 了 实现 上 的 困难 〈 更 不 用 说 给 用 户 使 用 了 ) ， 因 为 它 使 得 优化 器 的 工作 更 为 复杂 。 
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集 )， 称 8 的 子 集 C 是 在 等 价 规则 下 的 规范 格式 的 集合 ， 当 且 仅 当 @ 中 每 个 对 象 9 都 等 价 于 C 
中 的 某 一 对 象 c。 对 象 c 被 称 为 对 象 g 的 规范 格式 。 所 有 适用 于 q 的 “有 意义 的 ”的 属性 对 c 
也 是 适用 的 ; 因此 为 了 检验 多 种 “有 意义 的 ”结果 集 ， 只 研究 小 集合 C 中 的 对 象 就 足够 了 ， 
而 不 必 是 大 集合 C。 

现在 回 到 我 们 讨论 的 主线 上 来 : 为 了 将 阶段 上 的 输出 转换 为 某 种 等 价 的 、 但 更 为 高 效 的 
格式 ， 优 化 器 会 使 用 一 些 变 换 规则 (transformation mles or laws) 。 下 面 是 这 种 规则 的 一 个 例 
子 : 表达 式 


( A JOIN B ) WHERE restriction on A 


可 以 被 转换 为 下 面 这 个 等 价 、 但 更 为 高 效 的 表达 式 : 


{ A WHERE restriction on A ) JOIN B 


我 们 已 经 在 第 7 章 的 7.6 节 中 简要 讨论 过 这 种 转换 ; 同时 它 也 是 18. 2 节 中 的 例子 ， 那 个 
例子 清楚 地 表明 为 什么 需要 做 这 种 转换 。 更 多 的 变换 规则 将 在 18. 4 节 中 讨论 。 

3. 阶段 3: 为 执行 选择 低层 调用 

将 查询 的 内 部 格式 转换 为 某 种 更 好 的 形式 后 ， 优 化 器 必须 决定 如 何 执行 这 个 查询 。 在 这 
个 阶段 中 ， 将 要 考虑 诸如 是 否 存 在 索引 或 者 其 他 物理 存 取 路 径 、 数 据 值 的 分 布 情况 、 数 据 的 
物理 聚集 存储 等 等 问题 。 请 注意 ， 我 们 在 阶段 1 和 阶段 2 中 并 没有 考虑 过 这 些 问 题 。 

基本 的 策略 是 将 查询 表达 式 看 作 是 由 一 系列 “低层 操作 ” (low-level operation) 构成 的 ”， 这 
些 操作 间 保 持 一 定 的 相互 依赖 关系 。 这 种 依赖 性 的 例子 如 下 : 投影 操作 通常 需要 它 的 输入 元 组 是 按 
某 种 方式 排序 的 ， 以 便于 它 能 够 去 除 重复 值 。 这 样 就 要 求 投影 前 面 的 那个 操作 的 输出 元 组 必须 是 按 
这 种 方式 排序 的 。 

对 于 每 个 可 能 的 低层 操作 (并 且 可 能 也 是 这 些 操作 的 各 种 平常 组 合 ) ， 优 化 器 都 具有 一 组 可 
用 的 低层 调用 与 之 对 应 。 例 如 ， 可 以 有 一 组 实现 选择 操作 的 过 程 : 有 针对 实现 在 候选 码 上 做 等 式 
判断 的 选择 操作 实现 过 程 ， 有 针对 已 索引 的 属性 的 选择 操作 实现 过 程 ， 有 针对 已 散 列 化 的 属性 的 
选择 操作 实现 过 程 ， 等 等 。 在 18.7 节 中 给 出 了 这 样 的 例子 (同时 请 见 参考 文献 [18.7， 
18. 12] ) 。 

每 个 低层 调用 都 有 一 个 相关 的 代价 公式 (cost formula) ， 表 明 其 执行 代价 ， 尤 其 是 磁盘 LO 
代价 。 有 些 系 统 也 考虑 CPUS 利用 率 以 及 其 他 一 些 因素 。 这 些 代价 公式 会 在 阶段 4 中 用 到 。 参 考 
文献 [18.7 - 18. 12] 讨论 并 分 析 了 在 不 同 条 件 下 的 许多 操作 实现 过 程 的 代价 公式 。 同 时 请 参考 
18.7 节 。 

因此 ， 使 用 字典 表 中 有 关 数 据 库 当 前 状态 的 相关 信息 (如 是 否 存 在 索引 ， 当 前 的 基数 等 ) 
以 及 使 用 上 面 提 到 的 相互 依赖 性 的 信息 ， 优 化 器 将 选择 一 个 或 多 个 用 以 实现 查询 表达 式 中 低层 操 
作 的 候选 过 程 。 有 时 称 这 个 过 程 为 存 取 路 径 选择 (access path selection ) ( 见 参考 文献 [ 18. 33 ] ) 。 
注意 : 参考 文献 【18. 33] 使 用 术语 “ 存 取 路 径 选择 ”用 以 涵盖 阶段 3 以 及 阶段 4 的 工作 ， 而 不 
仅仅 只 有 阶段 3。 实 际 上 ， 阶 段 3 和 阶段 4 也 很 难 有 一 个 清晰 的 划分 界限 ， 阶 段 3 的 工作 或 多 或 
少 地 在 阶段 4 中 出 现 。 

4. 阶段 4: 生成 并 选择 最 低 代价 的 查询 计划 

优化 的 最 后 阶段 包括 构造 一 组 查询 计划 (query plan) ， 然 后 从 中 选择 一 个 最 优 的 ， 也 就 是 代 
价 最 低 的 查询 计划 。 每 个 查询 计划 通过 绑 定 一 系列 的 实现 过 程 而 构成 ， 每 一 个 过 程 对 应 查询 中 的 
一 个 低层 操作 。 注 意 ， 对 于 任何 给 定 的 查询 ， 通 常会 有 非常 多 的 可 能 的 查询 计划 。 所 以 ， 产 生 所 
有 的 查询 计划 并 不 明智 ， 因 为 组 合 会 使 这 些 查 询 计 划 过 多 ， 造 成 选择 这 些 查询 计划 本 身 代价 太 
大 ， 如 果 不 会 将 有 利 的 查询 计划 排除 在 外 的 话 (参看 文献 参考 【18. 53] ) ， 那 么 一 些 用 以 将 产生 





QO “ 层 ” 显然 是 一 个 相对 的 概念 。 这 里 提 到 的 “低层 ”操作 指 的 是 关系 代数 操作 〈 如 连接 、 选 择 、 求 和 等 ) ， 然 而 这 
些 操作 更 多 时 候 被 看 作 是 “高 层 ” 操 作 。 
全 ”CPU 代表 中 央 处 理 器 。 
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的 查询 计划 数目 保持 在 一 个 限度 内 的 启发 式 技术 是 非常 可 取 的 。“ 将 查询 计划 数目 保持 在 一 个 限 
度 内 ”通常 与 减少 搜索 空间 的 问题 相关 ， 因 为 这 种 做 法 被 认为 是 减少 了 优化 器 对 于 可 管理 范围 
内 的 查询 的 搜索 范围 。 

要 选择 代价 最 低 的 查询 计划 自然 需要 一 种 方法 来 计算 任何 一 个 计划 的 代价 。 一 般 地 讲 ， 一 个 
给 定 的 查询 计划 的 代价 就 是 构成 这 个 计划 的 各 个 过 程 的 代价 之 和 。 所 以 ， 优 化 器 必须 根据 代价 公 
式 计算 每 个 过 程 的 代价 。 问 题 在 于 ， 这 些 代价 公式 的 值 依赖 于 所 处 理 关系 的 大 小 ， 而 即便 是 最 简 
单 的 查询 在 执行 中 也 会 产生 中 间 结 果 集 ， 所 以 优化 器 就 不 得 不 估计 中 间 结 果 集 的 大 小 。 然 而 ， 这 
些 中 间 结 果 集 的 大 小 非常 依赖 于 实际 的 数据 值 。 所 以 ， 准 确 的 代价 估计 是 一 个 困难 的 问题 。 参 考 
文献 [18.2，18.3] 讨论 了 解决 这 个 问题 的 一 些 方法 ， 并 给 出 了 这 个 领域 中 的 一 些 研究 文献 。 


18. 4 ”表达 式 转换 


在 本 节 中 ， 我 们 将 描述 一 些 可 能 会 对 优化 处 理 的 第 2 阶段 有 用 的 变换 规则 。 本 章 的 练习 会 要 
求 为 部 分 规则 写 一 些 例 子 以 及 准确 地 说 明 它们 可 能 会 有 用 的 原因 。 

我 们 使 用 某 个 变换 规则 能 够 将 一 个 给 定 的 表达 式 转换 为 另 一 种 形式 ， 这 种 形式 还 可 以 被 另 一 
个 规则 再 转换 。 例 如 ， 一 个 实际 中 的 原 查 询 不 大 可 能 写成 具有 两 个 连续 投影 的 形式 〈( 见 下 面 
“选择 和 投影 ”小 节 中 的 第 二 个 规则 ) ， 而 转换 过 后 的 查询 却 有 可 能 是 这 种 形式 。( 一 个 重要 的 例 
子 就 是 视图 处 理 (view processing) 。 例 如 ， 查 询 “ 给 出 视图 V 中 的 所 有 城市 CITY”， 其 中 视图 
V 定义 为 供应 商 在 属性 S#、CITY 上 的 投影 ) 。 换 句 话说， 由 原 查询 开始 ， 优 化 器 对 查询 形式 进 
行 转换 ， 直 至 它 认 为 所 得 到 的 形式 依据 某 些 启发 式 规则 已 经 是 最 优 的 为 止 。 

1. 选择 和 投影 

下 面 是 选择 和 投影 的 一 些 变换 规则 

1) 对 同一 关系 连续 的 多 个 选择 可 以 转换 为 一 个 用 AND 连接 的 选择 操作 。 例 如 ， 表 达 式 


( A WHERE pl ) WHERE p2 


等 价 于 表达 式 

A WHERE pl RND p2 

这 个 变换 是 有 意义 的 ， 因 为 原始 的 表达 式 意味 着 要 对 4 进行 两 次 扫描 ， 而 变换 后 的 版 本 只 
需要 一 次 就 够 了 。 

2) 对 同一 关系 连续 的 多 个 投影 可 以 转换 为 仅 含 最 后 一 个 投影 的 操作 。 例 如 ， 表 达 式 : 


(A{ acll} ) {acl2 } 


(其 中 acll 和 ach 是 属性 名 ) 等 价 于 表达 式 

A{ acl2 } 

当然 ， 要 使 原 查询 有 意义 ，ac 必须 是 acll 的 子 集 。 

3) 投影 操作 后 的 选择 操作 可 以 转换 为 选择 操作 后 的 投影 操作 。 例 如 ， 表 达 式 


(atacl } ) WHERE p 


等 价 于 表达 式 


{A WHERE P ) {acl } 


注意 ， 通 常情 况 下 在 投影 操作 前 做 选择 操作 更 好 ， 因 为 选择 操作 可 以 减少 投影 操作 的 输入 大 
小 ， 而 投影 操作 可 能 为 了 去 除 重复 项 而 需要 输入 数据 有 序 ， 因 而 也 就 减少 了 和 需要 进行 排序 操作 的 
数据 量 。 

2. 分 配 律 

在 18.2 节 的 例子 中 使 用 到 的 变换 规则 (将 先 连 接 后 选择 转换 为 先 选 择 后 连接 ) 实际 上 是 分 
配 律 的 一 个 特例 。 一 般 来 说 ， 称 一 元 操作 符 在 二 元 操作 符 O 上 是 可 分 配 的 〈distribute) ， 当 且 





AM 分 汕 和 # 丰 


仅 当 对 所 有 的 4 和 8， 有 


f(A0B) nu f(A)Of(B) 


在 一 般 的 算术 表达 式 中 ,例如 SQRT (平方 根 运 算 ) 在 乘法 上 就 满足 分 配 律 ， 这 是 因为 对 所 有 的 
4 和 828， 有 


SQRT ( AxrB) = SQORT (A)* SQRT (8 日) 


因此 在 做 算术 表达 式 转换 时 ， 优 化 器 总 可 以 使 用 这 些 形式 来 互 换 。 另 外 有 个 反例 ， 比 如 SQRT 在 
加 法 上 就 不 满足 分 配 律 ， 因 为 SQRT (4 +B) 一 般 不 等 于 SQRT (4) +SQRT (8B)。 

在 关系 代数 中 ， 选 择 操作 符 在 并 、 交 、 差 操作 上 均 满足 分 配 律 。 在 连接 操作 上 ， 选 择 操作 满 
足 分 配 律 的 条 件 最 为 复杂 的 情况 是 ， 当 且 仅 当选 择 条 件 是 两 个 独立 的 选择 条 件 ” 的 合 取 式 ， 其 中 
每 个 选择 条 件 对 应 连接 操作 的 一 个 操作 数 。 在 18. 2 节 的 例子 中 的 情况 满足 了 这 些 要 求 。 实 际 上 ， 
这 个 条 件 是 很 简单 的 ， 而 且 只 实施 于 其 中 一 个 操作 数 。 这 样 就 可 以 使 用 分 配 律 将 表达 式 转换 为 一 
个 更 高 效 的 等 价 形式 。 这 样 做 可 以 使 得 “选择 操作 尽量 时 做” 。 早 做 选择 操作 总 是 有 利 的 ， 因 为 
这 样 可 以 减少 下 一 步 需 要 扫描 的 元 组 数 ， 而 且 可 以 减少 下 一 步 的 输出 。 

下 面 是 几 个 分 配 律 的 例子 ， 涉 及 投影 操作 。 第 一 点 ， 投 影 操作 在 并 操作 和 交 操 作 上 满足 分 配 
律 〈 在 差 操作 上 不 满足 ) : 


(AURION B ){acl) 至 A { acl )》 UNION B { acl } 
( A INTERSECT B ) { acl } ws A { acl } INTERSECT B { acl } 


这 里 A，B 是 同一 类 型 的 关系 。 
第 二 点 ， 投 影 操作 在 连接 操作 上 也 满足 分 配 律 ， 只 要 投影 操作 保持 了 所 有 的 连接 属性 : 


(AJOINB) {acl} = (A{acll})} JOIN(B{ acl2 )} ) 


这 里 acll 是 acl 中 仅 在 4 中 出 现 的 属性 的 并 集 ，acl 是 acl 中 仅 在 B 中 出 现 的 属性 的 并 集 。 

这 些 规则 可 使 得 “投影 操作 尽量 早 做 ”。 类 似 于 选择 操作 的 原因 ， 这 同样 总 是 有 利 的 。 

3. 交换 律 和 结合 律 

交换 律 和 结合 律 是 两 个 重要 的 规则 。 首 先 ， 称 二 元 操作 符 O 是 可 交换 的 (commutative) ， 当 
县 仅 当 对 所 有 的 A 和 B， 有 


AOB # BOA 


在 算术 中 ， 乘法 和 加 法 都 是 满足 交换 律 的 ， 但 除法 和 减法 不 是 。 在 关系 代数 中 ， 并 操作 、 交 操作 
以 及 连接 操作 都 是 可 交换 的 ， 但 差 操 作 和 关系 除法 不 是 。 所 以 ， 如 果 一 个 查询 包括 两 个 关系 4 
和 8 的 连接 ， 那 么 交换 律 保 证 无 论 A 或 B 谁 作 “ 外 ”关系 谁 作 “ 内 ”关系 在 逻辑 上 都 没有 区 
别 。 因 此 ， 系 统 就 可 以 自由 地 选择 其 中 的 小 关系 作为 “外 ”关系 来 计算 连接 ( 见 18.7 节 )。 

现在 讨论 结合 律 。 称 二 元 操作 符 O 〇 是 可 结合 的 (associative)， 当 且 仅 当 对 所 有 的 4、B、 
C， 有 


AO(BOC) su (AOB)}OC 


在 算术 中 ， 乘 法 和 加 法 都 是 满足 结合 律 的 ， 但 除法 和 减法 不 是 。 在 关系 代数 中 ， 并 操作 、 交 操作 
以 及 连接 操作 都 是 可 结合 的 ， 但 差 操 作 和 关系 除法 不 是 。 所 以 ， 如 果 一 个 查询 包括 三 个 关系 4， 
8 和 C 的 连接 ， 那 么 交换 律 和 结合 律 一 起 保证 了 无 论 按 什么 样 的 顺序 进行 连接 都 在 逻辑 上 没有 区 
别 。 因 此 ， 系 统 就 可 以 自由 地 选择 代价 最 小 的 连接 顺序 。 

4. 罕 等 律 和 骸 收 律 

宕 等 律 是 另 一 个 重要 的 规则 。 称 二 元 操作 符 〇 是 害 等 的 〈idempotent) ， 当 且 仅 当 对 所 有 的 





四 ”对 于 选择 条 件 的 解释 可 以 参考 第 7 章 的 7.4 小 节 。 
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4， 有 


AOA = A 


宕 等 属性 在 表达 式 变换 中 也 有 用 处 。 在 关系 代数 中 ， 并 操作 、 交 操作 以 及 连接 操作 都 是 宕 等 的 ， 
但 差 操作 和 关系 除法 不 是 。 

并 操作 和 交 操 作 也 都 满足 以 下 的 吸收 律 (absorption) : 

A UNION ( A INTERSECT B ) = A 

A INTERSECT ( A UNION B ) = A 


5. 计算 的 表达 式 
这 些 变 换 规则 不 仅 适 用 于 关系 表达 式 。 例 如 ， 前 面 已 经 说 明 一 些 变换 规则 同样 适用 于 算术 表 
达 式 。 下 面 是 个 例子 : 表达 式 


A*B+A*C 


可 以 被 转换 为 


A* (B+C) 


这 是 因为 “* ”在 “+” 上 满足 分 配 律 。 关 系 优化 器 同样 需要 知道 这 些 ， 因 为 扩展 extend) 
操作 符 和 合计 (summarize) 操作 符 可 能 会 用 到 这 样 的 表达 式 。 

注意 ， 这 个 例子 给 出 了 比分 配 律 更 为 普遍 的 形式 。 前 文 是 根据 一 元 操作 符 在 二 元 操作 符 上 的 
分 配 定义 的 分 配 律 ， 而 在 这 个 例子 中 ，“ * ”和 “+ ”都 是 二 元 操作 符 。 总 之 ， 称 二 元 操作 符 5 
在 二 元 操作 符 〇 上 是 可 分 配 的 ， 当 且 仅 当 对 所 有 的 4, 妃 和 C， 有 


A6({BOC) = (A66B}O(AS6cC) 


在 上 面 的 算术 例子 中 , 用 “* ”代替 353, 用 “+” 代 替 〇 。 
6. 布尔 表达 式 
现在 开始 讨论 布尔 表达 式 。 假 设 4 和 8 是 两 个 不 同 关系 的 属性 。 那 么 布尔 表达 式 


A>BANDB>3 


明显 等 价 于 ( 即 可 被 转换 为 ) : 

A>BANDB> 3 ANDA>3 
这 是 因为 比较 操作 符 “ > ”是 可 传递 的 (transitive) 。 注 意 这 个 转换 是 值得 的 ， 因 为 这 样 系统 可 
以 在 关系 4 上 多 做 一 个 选择 操作 ， 从 而 减少 参与 比较 操作 “4 > B” 的 基数 。 这 里 再 重复 前 面 提 
到 过 的 一 个 观点 : 选择 操作 尽量 早 做 ; 像 这 里 的 例子 一 样 ， 执 行 系统 的 隐 含 选择 条 件 也 是 一 个 好 
的 办 法 。 注 意 : 在 一 些 商 用 系统 中 已 经 实现 了 该 技术 ,例如 DB2 (这 项 技术 在 其 中 被 称 为 “ 谓 
词 传 递 闭 包 ” (predicate transitive closure)) 和 Ingres。 

下 面 是 另 一 个 例子 。 表 达 式 


A>BOR(C=DANDE<P) 
可 以 转换 为 

(A>BORC=D)AND(A>BOE<F) 
这 是 因为 OR 在 AND 上 满足 分 配 律 。 这 个 例子 说 明了 另外 一 个 规则 : 任何 一 个 布尔 表达 式 都 能 
被 转换 为 一 个 等 价 的 合 取 范 式 (conjunctive normal form, CNF) 。 合 取 范式 是 具有 如 下 形式 的 表 
达 式 

C1 RND C2 RND ... RND Cn 


其 中 ，C1 ，C2，...，Cn 都 是 不 包含 AND 的 布尔 表达 式 ， 称 之 为 合 取 项 (conjunct) 。CNF 表达 
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式 的 优点 是 ， 只 有 当 所 有 的 合 取 项 都 真 时 ， 该 表达 式 才 为 真 ; 只 要 有 一 个 为 假 ， 该 表达 式 为 假 。 
因为 AND 操作 符 是 可 交换 的 (A AND 8B 等 价 于 8 AND 4) ， 所 以 优化 器 可 以 按 任何 顺序 计算 合 
取 范 式 的 合 取 项 ;特别 地 ， 优 化 器 可 以 按照 增 量 难度 次 序 来 计算 (最 简单 的 最 先 做 )。 只 要 优化 
器 发 现 一 个 合 取 项 为 假 ， 那 么 处 理 过 程 就 停止 。 而 且 在 并 行 系统 中 ， 有 可 能 将 所 有 的 合 取 项 进行 
并 行 计算 [18. 56 -18.58]。 同 样 ， 一 旦 发 现 一 个 合 取 项 为 假 ， 处 理 过 程 随即 停止 。 

可 以 看 到 ， 优 化 器 需要 知道 这 些 规 则 ， 如 分 配 律 ， 不 仅 适 用 于 关系 操作 符 (如 连接 )， 同 样 
也 适用 于 比较 操作 符 ( 如 “>")、 布 尔 操作 符 (如 AND 和 OR) 以 及 算术 操作 符 (如 “+") 
等 等 。 

7. 语义 转换 

考虑 如 下 表达 式 


( SP JOIN S ) { P# } 


这 里 的 连接 是 个 外 码 匹配 候选 码 连 接 (foreign-to-matching-candidate-key join) ; 它 用 SP 的 一 个 外 
码 来 匹配 S 中 相应 的 候选 码 。 这 意味 着 每 个 SP 元 组 都 需要 同一 些 S 元 组 做 连接 ， 同 时 每 个 SP 
元 组 的 属性 P# 都 会 出 现在 结果 集中 。 换 名 话说， 这 根本 就 不 需要 做 连接 ! 这 个 表达 式 可 以 简 
化 为 


SP { P# } 


特别 要 注意 的 是 ， 这 个 转换 之 所 以 成 立 只 是 因为 语义 的 原因 。 一 般 地 讲 ， 做 连接 的 两 个 关系 
彼此 都 会 有 一 些 对 方 没有 的 连接 属性 的 值 (因此 不 是 所 有 的 属性 值 都 会 出 现在 连接 结果 集中 )， 
所 以 这 样 的 转换 也 是 不 成 立 的 。 但 这 个 例子 中 ， 因 为 完整 性 约束 的 缘故 (实际 上 是 参照 完整 
性 ) ， 即 所 有 的 货物 都 必须 有 供应 商 ， 所 以 所 有 的 SP 的 元 组 都 在 S 中 有 对 应 的 值 。 所 以 这 个 转 
换 也 就 是 可 行 的 。 

只 是 因为 完整 性 约束 的 原因 才 使 得 一 个 转换 成 立 的 情况 被 称 为 语义 转换 ( semantic transfor- 
mation) [18.25] ， 而 由 此 形成 的 优化 称 为 语义 优化 (semantic optimization ) 。 语 义 转换 可 以 定义 
为 依靠 完整 性 约束 ， 将 一 个 查询 转换 为 另 一 个 查询 ， 它 们 在 查询 效率 上 有 差别 ， 但 输出 结果 集 
一 致 。 

需要 明确 的 是 ， 原 则 上 任何 的 完整 性 约束 条 件 都 可 以 用 于 语义 优化 (并 不 只 限于 参照 完整 
性 约束 ) 。 例 如 ， 假 如 供应 商 和 零件 数据 库 都 受 限 于 条 件 “ 所 有 的 红色 零件 都 必须 存放 在 Lon- 
don”， 那 么 考虑 查询 : 

获取 这 样 的 供应 商 ， 他 们 仅 供 应 红色 零件 ， 并 且 他 们 所 在 的 城市 至 少 有 他 们 提供 的 

一 种 零件 。 

这 是 个 相当 复杂 的 查询 ， 但 根据 完整 性 约束 ， 它 可 以 转换 为 如 下 更 简单 的 形式 : 

获取 London 供应 商 ， 他 们 仅 供应 红色 零件 。 

注意 :就 笔者 所 知 ， 目 前 很 少 有 商用 系统 在 语义 优化 上 下 了 工夫 。 但 是 原则 上 讲 ， 这 种 转换 
可 以 很 大 地 提高 性 能 ， 这 种 提高 可 能 比 现在 任何 一 种 传统 的 优化 技术 要 大 得 多 。 有 关 语义 优化 的 
更 深入 讨论 可 以 参看 参考 文献 [18. 13 ，18. 25 - 18. 28 ] ， 其 中 特别 推荐 [18. 25 ]。 

8. 本 节 小 结 

在 本 节 的 最 后 ， 需 要 强调 关系 封闭 (closure) 对 讨论 内 容 基 础 性 的 重要 作用 。 封 闭 意味 着 可 
以 写 氮 套 表达 式 ， 这 就 是 说 ， 可 以 用 单独 一 个 表达 式 而 不 是 一 个 多 语句 的 过 程 调 用 来 表达 一 个 查 
询 ; 因此 ,不 需要 任何 的 流程 分 析 。 同 样 ， 这 些 柑 套 表达 式 是 用 子 表 达 式 递归 定义 的 ， 这 就 允许 
优化 器 采取 许多 “分 而 治之 ”的 策略 ( 见 18.6 节 )。 而 且 ， 如 果 没 有 封闭 性 ， 各 种 的 变换 规则 ， 
如 分 配 律 等 ， 就 没有 任何 意义 。 


18. 5 数据 库 统 计 信息 


整个 优化 过 程 的 阶段 3 和 阶段 4， 即 “ 存 取 路 径 选择 ”阶段 ， 利 用 了 存储 在 目录 表 中 的 数据 
库 统计 信息 (database statistic) (详细 见 18.7 节 对 这 些 统计 信息 使 用 的 描述 ) 。 本 节 将 综述 (并 
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稍 作 评 论 ) 两 个 商用 系统 一 一 DB2 和 Ingres 一 一 维护 的 主要 的 统计 信息 。 下 面 是 DB2 维护 的 一 
些 统计 信息 ”: 
ss 对 每 个 基 表 (base table): 
。 基数 的 数 
。 该 表 占 用 的 页 面 数 
。 该 表 占 用 的 表 空 间 的 分 片 情况 
对 基 表 的 每 个 列 (column): 
e 该 列 不 同 值 的 个 数 
e 该 列 第 2 大 的 值 
。 该 列 第 2 小 的 值 
。 如 果 是 索引 列 ， 该 列 10 个 最 常用 的 值 以 及 出 现 次 数 
。 对 每 个 索引 (index) 
> 指明 是 否 为 “聚集 索引 ” (即将 所 有 逻辑 上 关联 的 数据 物理 地 在 磁盘 上 存放 在 一 起 的 
索引 ) 
> 如 果 为 聚集 索引 ， 则 索引 表 的 分 片 也 按照 案 集 顺序 存放 
> 该 索引 叶 页 面 数 
> 该 索引 的 层 数 
注意 : 每 次 数据 库 更 新 时 这 些 索 引信 息 并 不 总 是 更 新 ， 因 为 这 样 就 会 带 来 额外 的 开销 。 它 们 
的 更 新 是 通过 DBA 按 需 要 (例如 在 数据 库 重组 后 ) 执行 一 个 称 之 为 RUNSTATS 的 系统 工具 软 
件 实现 的 。 大 多 数 数据 库 的 策略 也 是 这 样 。 在 Ingres 中 ， 这 个 工具 称 之 为 OPTIMIZEDB。 
下 面 是 mgres 的 主要 统计 信息 。 注 意 : 在 Ingres 中 ,索引 被 认为 是 特殊 的 存储 表 ; 因此 ， 为 
基 表 和 列 收集 的 统计 信息 同样 适用 于 索引 。 
a 对 每 个 基 表 : 
。 基数 的 数目 
e 该 表 占 用 的 主页 面 数 
e。 该 表 占 用 的 溢出 页 面 数 
s 对 基 表 的 每 个 列 : 
e 该 列 不 同 值 的 个 数 
。 该 列 最 大 值 、 最 小 值 和 平均 值 
e 该 列 的 实际 值 以 及 它们 出 现 的 次 数 


18.6 分 而 治之 的 策略 


正如 在 18. 4 节 提 到 的 ， 关 系 表达 式 可 以 根据 子 表达 式 递归 定义 ， 这 就 使 得 优化 器 采取 一 种 
“分 而 治之 ” (divide and conquer) 的 策略 。 注 意 ， 这 个 策略 在 并 行 处 理 环 境 中 可 能 尤其 有 利 
(特别 是 ， 在 分 布 式 系统 中 ) ， 因 为 查询 的 不 同 部 分 可 以 并 行 地 在 不 同 的 处 理 器 上 执行 [18. 56- 
18. 58 ] 。 在 本 节 中 ， 将 研究 一 个 称 之 为 查询 分 解 (query decomposition) 的 策略 ， 这 是 在 Ingres 
原型 系统 [18.34，18. 35] 中 最 早 提出 的 。 

查询 分 解 的 基本 想法 是 : 使 用 拆 分 (detachment) 和 元 组 置换 (mple substitution) 的 办 法 ， 
将 一 个 含有 多 个 范围 变量 的 查询 2 分 解 为 一 系列 只 含有 1 个 或 2 个 变量 的 小 查询 ， 

s 拆 分 是 将 查询 中 的 一 部 分 (该 部 分 只 含有 一 个 同 剩余 部 分 相同 的 变量 ) 从 查询 中 移出 的 

过 程 。 
s 元 组 置换 是 指 每 次 用 一 个 元 组 置换 其 中 一 个 查询 变量 的 过 程 。 





他 ”因为 DB2 和 Ingres 都 是 支持 SQL 的 系统 ， 它 们 使 用 术语 “ 表 ” 和 “ 列 ” 分 别 代表 关系 变量 和 属性 ， 所 以 本 节 
中 我 们 也 使 用 这 两 个 术语 。 并 且 ， 这 两 个 系统 都 假设 基本 表 是 直接 映射 到 存储 表 的 。 
@ ”Ingres 的 查询 语言 QUEL 是 基于 微 积分 学 的 。 
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只 要 有 可 能 ， 拆 分 就 在 元 组 置换 前 使 用 。 但 是 最 终 一 个 查询 会 被 分 解 为 一 系列 无 法 再 拆 分 的 
部 分 ， 这 样 就 要 使 用 元 组 置换 了 。 

这 里 给 出 一 个 例子 (基于 参考 文献 [18. 34] 的 例子 ) 。 这 个 查询 是 “获取 London 供应 商 的 
名 称 ， 这 些 供应 商 供应 某 种 红色 零件 ， 并 且 这 些 零件 数量 大 于 200 而 重量 小 于 25 磅 " 。 下 面 是 一 
个 QUEL 格式 的 查询 表达 式 (“查询 Q0”) : 


Q0: RETRIEVE ( S.SNAME ) WHERE S.CITY = "London" 
AND S.S# = SP.S# 
AND SP.QTY > 200 
AND SP.P# = P.P# 
AND P.COLOR = "Red" 


AND P.WEIGHT < 25.0 


其 中 ， 范 围 变量 是 S、P 和 SP， 它们 在 同名 的 基 表 范围 内 取 值 。 
可 以 看 到 ， 最 后 两 个 子 句 是 对 零件 的 要 求 ， 即 红色 且 重 量 小 于 25 磅 。 所 以 可 以 拆 分 一 个 包 
含 变量 P 的 “ 单 变 量 查询 ”( 实 际 上 是 一 个 选择 操作 的 一 个 投影 ) : 


Dl: RETRIEVE INTO P' ( P.P# ) WHERE P.COLOR = "Red" 
P.WEIGHT < 25.0 


之 所 以 可 以 拆 分 出 这 个 单 变量 查询 ， 是 因为 它 只 有 一 个 变量 P 相同 于 剩余 部 分 。 因 为 它 通过 
属性 P# 同 原 查 询 的 剩余 部 分 相关 联 (SP. P# = P. P#) ， 所 以 在 拆 分 后 的 部 分 中 ，P# 是 必须 出 现在 
“原型 元 组 ” ( proto tuple) ( 见 第 8 章 ) 中 的 ; 也 就 是 说 ， 拆 分 后 的 查询 必须 获取 红色 的 以 及 重 
量 小 于 25 磅 的 零件 号 。 我 们 把 这 个 拆 分 后 的 查询 称 为 查询 Dl 并 把 它 的 结果 集 放 人 一 个 临时 关 
系 P' 中 (NTO 从句 的 作用 是 创建 一 个 只 有 一 个 属性 P# 的 新 关系 P'， 用 于 自动 存放 执行 RE- 
TRIEVE 获得 的 结果 集 ) 。 最 后 ， 在 Q0 的 简化 版 本 中 把 对 P 的 引用 换 为 对 P' 的 引用 。 下 面 把 这 个 
简化 版 本 称 为 查询 Q1: 


Q1l: RETRIEVE ( S.SNAME ) WHERE S.CITY = "London" 
AND S.S = 


AND SP.QTY > 200 
AND SP.P# = P'.P# 


现在 对 查询 Ql 执行 一 个 相似 的 过 程 ， 拆 分 得 到 包含 变量 SP 的 单 变量 查询 D2， 并 且 得 到 Ql 
的 新 简化 版 本 Q2。 

D2: RETRIEVE INTO SP' ( SP.S#, SP.P# ) WHERE Sp.QTY > 200 

Q2: RETRIEVE ( S.SNAME ) WHERE S.CITY ~ “London" 


S.S¥# = SP'.S# 
AND SP'.P# = P'.P# 


下 面 拆 分 包含 变量 S 的 单 变量 查询 : 
D3: RETRIEVE INTO S，( S.S#, S.SNAME ) WHERE S.CITY = "London" 
Q3: RETRIEVE ( S'.SNAME ) WHERE S'.S# = SP'.S# 
RND SP'.P# = P'.P# 
最 后 拆 分 包含 变量 SP' 和 了 ' 的 双 变量 查询 : 
D4: RETRIEVE INTO SP'' ( SP'.S# ) WHERE SP'.P# = Pp'.P# 
Q4: RETRIEVE ( S'.SNAME ) WHERE S'.S# = SP''.S# 


因此 ， 原 查询 Q0 就 被 分 解 为 三 个 单 变 量 查 询 D1，D2，D3 (每 一 个 都 是 选择 操作 的 投影 ) 
和 两 个 双 变 量 查询 D4 和 Q4 (每 一 个 都 是 连接 操作 的 投影 )。 可 以 用 如 图 18-3 所 示 的 树 结构 来 表 
示 这 种 情况 。 这 个 图 可 以 这 样 理解 : 
am 查询 D1 ，D2 和 D3 的 输入 分 别 是 关系 P，SP 和 S (更 准确 地 说 ， 是 关系 P，SP 和 S 的 当 
前 值 )。 它 们 的 输出 分 别 是 P'，SP' 和 S'。 
s 查询 D4 的 输入 是 P' 和 SP'， 输 出 是 SP”。 
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m 最 后 ， 查 询 Q4 的 输入 是 S' 和 SP", 输出 是 整个 查询 的 结果 。 

可 以 发 现 ， 查询 D1，D2 和 D3 是 完全 独立 的 ， 并 且 可 以 按 任何 次 序 处 理 (甚至 在 并 行 环境 
中 也 是 这 样 ) 。 同 样 ， 一 旦 D1 与 D2 处 理 完毕 ， 查 询 D3 和 D4 可 以 按 任何 顺序 处 理 。 但 是 ， 查 
询 D4 和 Q4 就 无 法 再 分 解 而 且 必 须 用 元 组 置换 来 处 理 一 一 即 强制 方法 (brute force) 、 索 引 查 找 
(index lookup) 或 者 散 列 查找 (hash lookup)， 见 18.7 节 。 例 如 ， 考 虑 查询 Q4。 按 一 般 的 例子 
数据 ，SP'. S# 供 应 商 编号 集合 是 1S1，S2，S4} 。 这 三 个 值 的 每 一 个 将 轮流 置换 SP”. S#。 因 此 ， 
可 以 将 Q4 的 计算 过 程 看 作 如 下 方式 的 表达 : 


RETRIEVE ( S' .SNAME ) WHERE S'.S# 
OR S"'.S# 
OR S'.S# = "S4" 

参考 文献 [18.34] 给 出 了 将 原 查询 分 解 为 最 简化 
的 小 查询 以 及 为 每 个 变量 做 元 组 置换 的 算法 。 做 元 组 置 
换 的 选择 时 会 有 许多 优化 工作 可 以 做 。 参考 文 献 
[18.34] 包括 了 一 些 做 这 种 选择 的 代价 估算 的 启发 式 规 
则 (Ingres 通常 会 选择 具有 最 小 基数 的 关系 做 元 组 置 
换 ) 。 总 地 来 说 ， 优 化 过 程 的 主要 目标 是 避免 做 笛 卡 尔 
积 和 保持 每 个 阶段 做 扫描 的 关系 基数 最 少 。 

参考 文献 [18.34] 并 没有 讨论 单 变 量 查询 的 优化 
问题 。 但 是 ， 有 关于 此 的 优化 在 Ingres 的 概述 文献 
[8.11] 中 有 所 论 及 。 它 基本 上 类 似 于 其 他 系统 的 相似 . 
功能 ， 包 括 使 用 目录 表 统 计 信 息 以 及 在 扫描 数据 时 选择 图 18-3 查询 Q0 的 分 解 树 
存 取 路 径 等 〈 例 如 散 列 方法 或 是 索引 方法 ) 。 

参考 文献 [18. 35] 给 出 了 一 些 实验 数据 。 这 些 数据 来 源 于 一 些 基准 测试 的 查询 ， 证 明 以 上 
论 及 的 技术 基本 可 行 ， 而 且 在 实际 应 用 中 很 有 效 。 下 面 是 该 文 的 一 些 结论 : 

1) 拆 分 是 最 好 的 第 一 步 。 

2) 如 果 必 须 先 做 元 组 置换 ， 那 么 被 置换 的 变量 的 最 佳 选择 是 个 连接 变量 。 

3) 一 旦 对 一 个 双 变 量 查询 中 的 一 个 变量 使 用 元 组 置换 ， 那 么 如 果 有 必要 ， 最 好 在 另 一 个 关 
系 的 连接 属性 上 动态 建立 一 个 索引 或 散 列 。( 实际 上 ，Ingres 经 常 使 用 的 就 是 这 个 策略 。) 


18.7 关系 操作 的 实现 算法 


我 们 现在 提供 一 些 关 系 操作 实现 方法 的 简短 描述 ， 尤 其 是 连接 操作 的 算法 。 我 们 这 样 做 的 目 
的 就 是 尽量 扫除 围绕 着 优化 技术 的 一 些 迷雾 ， 使 人 觉得 它 不 再 那么 神秘 。 下 面 讨论 的 方法 就 是 我 
们 在 18. 3 节 中 称 为 “低层 实现 过 程 ”的 操作 。 注 意 : 一 些 更 为 复杂 的 实现 技术 将 在 本 章 最 后 的 
参考 文献 部 分 讨论 ， 也 可 参考 附录 A。 

为 了 简单 起 见 ， 我 们 假设 数据 就 是 以 关系 和 元 组 的 形式 物理 存储 的 。 我 们 考虑 的 关系 操作 符 
包括 投影 、 连 接 和 合计 。 其 中 ,合计 操作 包括 以 下 两 种 情况 : 

1) 求 和 ( 列 属性 除外 )。 

2) 对 至 少 一 个 属性 求 和 。 

第 一 种 情况 很 明显 : 一 般 地 讲 ， 它 需要 扫描 整个 关系 做 求 和 运算 ， 除 非 这 个 被 施 以 聚集 操作 
的 列 恰好 被 索引 过 ， 这 样 它 也 许 能 够 不 必 存 取 关 系 本 身 而 直接 从 索引 计算 出 结果 。 例 如 ， 表 达 式 


SUMMARIZE SP ADD SUM ( QTY } AS TQ 


就 能 够 通过 扫描 QTY 索引 (假设 存在 该 索引 ) 计算 出 结果 。 如 果 用 COUNT 或 AVG 代替 SUM 
(对 于 COUNT 来 说 ， 任 何 索引 都 可 以 ) ， 上 述 结论 也 同样 成 立 。 至 于 MAX 和 MIN， 只 存 取 最 后 
一 个 索引 块 (对 于 MAX 来 说 ) 或 者 第 一 个 索引 块 〈 对 于 MIN 来 说 ) 就 可 以 得 到 结果 (这 里 同 
样 假设 相关 属性 的 索引 存在 ) 。 

在 本 节 的 剩余 部 分 ,“ 合 计 ” 特 指 第 二 种 情况 。 下 面 是 第 二 种 情况 的 一 个 例子 : 


Li 
i] 
bm 
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SUMMARIZE SP PER P { P# } ADD SUM ( QTY ) AS TOTQTY 


在 使 用 者 看 来 ， 投 影 、 连 接 和 第 二 种 情况 的 合计 相互 之 间 差 别 都 很 大 。 从 实现 的 角度 来 看 ， 
它们 有 一 定 的 共性 ， 因 为 不 管 是 哪 种 情况 ， 系 统 都 需要 在 指定 的 列 上 按 相同 的 列 值 做 分 组 操作 。 
如 果 是 投影 ， 这 样 的 分 组 操作 允许 系统 删除 重复 的 元 组 ; 如 果 是 连接 ， 它 就 会 找 匹 配 的 元 组 ; 如 
果 是 合计 ， 它 就 分 别 计算 每 个 分 组 的 聚集 值 。 下 面 列 出 了 这 样 的 几 种 分 组 技术 : 

1) 强制 方法 (bmte force) 

2) 索引 查找 方法 (index lookup) 

3) 散 列 查找 方法 (hash lookup) 

4) 归并 方法 (merge) 

5) 散 列 方法 (hash) 

6) 综合 使 用 以 上 方法 。 

图 18-4 ~ 图 18-8 给 出 了 连接 算法 的 伪 代 码 (投影 和 合计 操作 留 作 练习 )。 有 几 点 需要 注意 : 
首先 ，R 和 5S 是 被 连接 的 关系 ，C 是 它们 的 (有 可 能 为 组 合 的 ) 相同 列 属性 。 假 设 可 以 按 某 种 顺 
序 一 次 一 条 记录 地 存 取 RR 和 5S， 分别 记 作 R [1], R [2],…,R[m] 和 S [1], S$ [2]，…， 
5S [nj]。 使 用 表达 式 尺 [器 *5S [j] 代表 元 组 R [i 和 5 [j] 的 连接 结果 。 最 后 ， 设 R 为 外 
(outer) 关系 ，$ 为 内 (inner) 关系 (因为 它们 各 自负 责 外 层 和 内 层 循环 ) 。 

1. 强制 连接 方法 

强制 连接 方法 可 以 被 称 为 最 “直接 ”的 方式 。 在 这 个 算法 中 ， 检 查 所 有 可 能 的 元 组 组 合 
(如 图 18-4 所 示 ，R 的 每 个 元 组 都 试图 同 5 的 每 个 元 组 进行 连接 ) 。 注 意 : 强制 连接 方法 通常 被 
称 作 是 “ 骨 套 循环 ”( nested loop) ,但 这 样 实际 上 有 点 误导 ， 因 为 不 管 是 哪 种 算法 都 会 有 典 套 循 
环 的 。 


to D 


2 Lod 
if RIi].C = S{j}.C then 


add joined tuple RI[i] * S[j] to result ; 
? 





图 18-4 强制 连接 方法 


下 面 考察 一 下 强制 连接 方法 的 代价 问题 。 注 意 : 尽管 在 实际 中 其 他 的 代价 (如 CPU 时 间 
等 ) 也 很 重要 ， 但 这 里 只 考虑 VO 代价 。 
首先 ， 强制 连接 方法 需要 m+ (m*n) 个 元 组 读 操作 ; 但 有 多 少 写 操作 呢 ? 也 就 是 连接 结 
果 集 的 大 小 是 多 少 ? (如 果 所 有 的 连接 结果 都 往 磁盘 上 回 写 的 话 ， 写 操作 的 基数 就 等 于 连接 结果 
集 的 基数 。) 
me 一 种 重要 的 特殊 情况 是 多 对 一 连接 (特别 是 ， 一 个 外 码 匹配 候选 码 的 连接 ) ， 结 果 集 的 基 
数 就 等 于 包含 外 码 的 那个 连接 关系 的 基数 ， 即 m 或 n。 
me 更 普通 的 情况 是 多 对 多 的 连接 。 设 dCR 是 关系 R 连接 属性 C 的 不 同 值 的 个 数 ，dCS 是 关 
系 S 连 接 属 性 C 的 不 同 值 的 个 数 。 如 果 假 设 列 值 均匀 分 布 (uniform value distribution ) ， 
即 任意 给 定 的 关系 R 的 属性 C 的 值 可 以 按 任何 顺序 出 现 ， 那 么 对 于 给 定 的 R 的 元 组 ， 就 
应 当 有 n/dCs 个 $ 的 元 组 具有 相同 的 属性 C 的 值 ， 因此， 总 共 参 与 连接 的 基数 (也 即 结 
果 集 的 大 小 ) 就 有 (m*n) /dC3 个 。 或者， 如 果 以 5 为 考虑 对 象 进行 同样 的 分 析 ， 那 么 
结果 集 的 大 小 就 为 (m *n) /dCR。 如 果 dCR 头 dCS5， 那么 这 两 个 估计 结果 也 就 不 同 了 ， 
这 就 是 说 ， 如 果 有 些 属性 C 值 在 R 中 出 现 但 在 8 中 不 出 现 〈 反 之 亦 然 ) ， 就 应 当 使 用 较 小 
的 那个 估计 值 。 
在 实际 中 ， 正 如 18. 2 节 所 述 ， 页 面 (page) IO 是 代价 因子 ， 而 不 是 元 组 YO。 所 以 可 以 假 
设 R 的 元 组 按 pR 每 页 存储 ,5 的 元 组 按 pS 每 页 存储 ( 这样， 两 个 关系 就 分 别 占 用 m/pR 页 和 nn/ 
pS 页 ) 。 这 样 图 18-4 所 示 的 过 程 就 需要 (m/pR) + (m*n) /ps 个 页 面 读 操作 。 或 者 ， 如 果 交 换 
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R 和 S$ 的 位 置 ( 即 把 § 作 外 关系 ，R 作 内 关系 )， 那 么 页 面 读 操作 数 为 (n/pS) + (nx*m) /pR。 

举 个 例子 ; 假设 m = 100, n = 10 000, PR = 1, pS = 10。 那 么 两 个 公式 计算 的 结果 分 别 
是 100 100 和 1 001 000 个 页 面 读 操作 。 结 论 : 在 强制 方法 中 ， 最 好 使 用 小 的 那个 关系 作为 外 关系 
(这 里 小 的 含义 是 “页 面 少 ”) 。 

归纳 一 下 对 强制 连接 方法 的 讨论 ， 可 得 出 以 下 的 结论 : 这 是 一 种 最 糟糕 的 算法 ; 它 假设 关系 
5 在 属性 C 上 既 没有 索引 又 没有 散 列 。Bitton 等 人 所 做 的 实验 [18.6] 表明 ， 如 果 这 个 假设 成 
立 ， 那 么 再 动态 地 创建 索引 或 者 散 列 连接 ， 然 后 再 使 用 索引 查找 连接 方法 或 者 散 列 查找 连接 方法 
( 见 下 面 两 小 节 ) ， 一 般 也 可 以 使 连接 性 能 提高 。 正 如 在 上 一 节 结 尾 提 到 的 ， 参 考 文献 [18. 35] 
支持 这 个 观点 。 

2. 索引 查找 连接 方法 

现在 考虑 在 内 关系 属性 5S. C 上 有 一 个 索引 XX 的 情况 (如 图 18-5 所 示 ) 。 这 项 技术 比 强制 方 
法 优越 的 地 方 在 于 ， 对 外 关系 的 任意 一 个 给 定 元 组 ， 可 以 直接 定位 到 内 关系 5 的 对 应 元 组 。 所 
以 读 关 系 尺 和 $ 的 基数 就 为 连接 结果 集 的 基数 ; 按 最 糟 的 情况 考虑 ， 即 读 5 的 每 个 元 组 就 是 读 单 
独 一 页 ， 那 么 总 共 的 读 页 面 数 为 (m/pR) + (mn/dCS)。 


doi:=1tom; /* 外 层 循环 */ 
/* let there be k index entries *[1], so KEK] with*/ 
/* indexed attribute value = RIi}.C 


*/ 

doj:=1tok /* 内 展 特 环 “/ 
/* let tuple of S indexed by X[j] be S{j] 
adad joined tuple RI[Ii] * 3S[7] to result ; 





图 18-5 索引 查找 连接 方法 


如 果 关 系 5 怡 好 按 连接 属性 C 顺序 存储 ， 那 么 读 页 面 的 数目 就 减少 为 (m/pR) + (mn/ 
dCS) /pS。 考 虑 前 面 提 到 的 那个 例子 (m = 100, n = 10 000, pR = 1, pSs = 10)， 并 假设 
dCS = 100， 那 么 两 个 公式 计算 结果 分 别 为 10 100 和 1 100。 这 两 个 数据 的 差距 清楚 地 表明 将 关 
系 按 一 个 “好 ”的 顺序 物理 存储 的 重要 性 [18.7] 。 
但 是 ， 计 算 代价 时 必须 包括 对 索引 X 本 身 进行 存 取 的 开销 。 按 最 糟 的 情况 考虑 ， 即 R 的 每 
个 元 组 都 需要 一 个 “ 突 发 的 ”索引 查找 来 获取 对 应 的 8 元 组 ， 也 就 是 说 ， 需 要 读 遍 索引 的 每 一 
层 。 那 么 可 以 假设 索引 有 x 层 ， 这 就 带 来 额外 的 mx 个 页 面 读 操作 。 在 实际 中 ，x 通常 小 于 等 于 
3。( 由 于 最 高 层 的 索引 通常 都 长 驻 在 主 存 中 ， 这 样 就 进一步 减少 了 页 面 读 操作 次 数 。) 
3. 散 列 查找 连接 方法 
散 列 查找 连接 方法 类 似 于 索引 查找 连接 方法 ， 不 同 之 处 在 于 ， 散 列 查找 连接 方法 建立 在 内 关 
系 $ 属性 列 C 上 的 “快速 存 取 路 径 ” 是 散 列 化 的 列 而 不 是 索引 (如 图 18-6 所 示 ) 。 代 价 估算 留 
作 练 习 。 
4. 归并 连接 方法 
归并 连接 技术 假设 关系 尺 和 3 都 按照 连接 属性 C 有 序 物理 存储 。 如 果 是 这 样 的 话 ， 这 两 个 
关系 就 可 以 作物 理 顺 序 扫描 ， 而 且 这 两 个 扫描 可 以 同步 ， 所 以 这 个 连接 操作 可 以 一 遍 扫描 完成 
(至 少 在 一 对 多 的 连接 情况 下 这 个 结论 是 成 立 的 ， 在 多 对 多 的 情况 下 就 未 必 了 ) 。 因 为 每 个 页 只 
需 存 取 一 次 (如 图 18-7 所 示 ) ， 所 以 这 个 技术 显然 是 最 优化 的 。 换 句 话 说 ， 读 页 面 数 仅 为 〈m/ 
PR) + (n/pS)。 这 意味 着 : 
a 逻辑 相关 的 数据 在 物理 上 育 集 存储 是 这 个 算法 最 重要 的 性 能 因素 ; 也 就 是 说 ， 最 好 将 某 些 
对 企业 十 分 重要 的 连接 数据 按 这 种 方式 聚集 存储 [18.7]。 

a 如 果 没 有 建立 聚集 索引 ， 那 么 可 以 在 运行 时 刻 首先 将 其 中 一 个 关系 或 全 部 两 个 关系 排序 ， 
然后 使 用 归并 连接 算法 (排序 的 作用 就 是 动态 地 建立 这 种 聚集 索引 ) 。 这 种 技术 被 称 为 排 
序 /归并 (Sort/Merge) 算法 [18.8]。 
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/x* 


doi:=1tom,; 
k := hash (R[i}.C 









assume hash table H on S.C */ 


do 了 yj := 1 toh 
if S[j].C = RLi]. C then 
add joined tuple R{i} * S[j] to result ; 








/* 假设 R 和 5S 均 按 属性 C 排 序 ” */ 
/* 以 下 代码 假设 连接 为 多 对 多 情况 */ 
/* 较 简 单 的 多 对 一 情况 留 作 习 是 “/ 
ri:=1 
s := 1 
do vhile 工 gm and s<n;} /* outer loop */ 
:= RIr]. 
do JJ := S by 1 while S{j].C<v; 
end ; 
do 了 := Ss by 1 while S[j].C=v i /* main inner loop */ 


doi:= rr by 1 while RI].C Vv 
add joined tuple RII] * slj] to result ;，; 
Q 


Ss :=j; 
doi:=rby 1 while RIi].C =v; 
en 





图 18-7 归并 连接 方法 (多 对 多 情况 ) 
5. 散 列 连 接 方法 


/* let there be 4 ) Liples S[l1l, ..., S[h] stored at H[K] */ 
/* 内 层 循环 





如 同 前 面 讨论 的 归并 技术 ， 散 列 连 接 技术 也 只 需要 对 两 个 关系 各 自 进行 一 遍 扫描 〈 如 图 18-8 


所 示 )。 第 一 遍 扫描 在 8 表 的 连接 属性 5. C 上 建 
立 一 个 散 列表 ; 散 列表 单元 中 包含 连接 属性 什 on 
(也 可 能 是 其 他 属性 值 ) 并 且 有 一 个 指针 指向 磁 := hash (stj].c 


C) 
盘 上 相应 的 元 组 。 第 二 遍 扫 描 关系 R 并 对 连接 属 dd S{j] to hash table entry HIK}) ; 


性 RC 使 用 相同 的 散 列 函数 。 当 RR 元 组 与 一 个 或 
多 个 散 列 表 中 的 5 元 组 冲突 时 ， 就 开始 检查 R. C 





/* 现在 对 尺 做 散 列 查找 */ 


和 S.C 是 否 真 正 相 等 ,如果 相等 就 生成 连接 元 图 18-8 ” 散 列 连接 方法 


组 。 这 项 技术 与 归并 技术 相 比 ， 优 势 在 于 : 它 并 
不 要 求 关系 8 和 R 的 元 组 按照 某 个 顺序 存储 ， 而 且 也 不 需要 排序 。 
同 散 列 查找 连接 方法 一 样 ， 散 列 连接 方法 的 代价 估算 留 作 习 题 。 


18.8 小 结 


对 于 关系 系统 来 说 ， 优 化 是 挑战 又 是 机 遇 。 实 际 上 ， 优 化 能 力 是 关系 系统 提供 的 一 种 功能 。 
一 个 具有 好 的 优化 器 的 关系 系统 可 以 比 非 关系 系统 更 加 有 效 地 执行 操作 。 我 们 引用 的 例子 中 提 及 
的 一 些 改进 查询 执行 的 想法 可 能 是 可 行 的 〈 在 这 个 特定 的 例子 中 优化 比例 超过 10 000: 1) 。 优 化 


包括 四 个 大 的 阶段 : 


1) 将 查询 转换 为 一 些 内 部 格式 〈 通 常 是 查询 树 或 者 是 抽象 语法 树 ， 但 是 这 些 表达 方式 都 可 





以 被 认为 是 关系 代数 或 关系 运算 的 内 部 形式 ) 。 
2) 使 用 一 些 变换 规则 将 内 部 格式 转换 为 规范 格式 。 
3) 为 执行 规范 格式 的 查询 选择 低层 调用 。 
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4) 生成 查询 计划 ， 并 且 使 用 代价 公式 以 及 数据 库 统计 信息 从 中 选择 出 代价 最 低 的 查询 
计划 。 

然后 ， 我 们 讨论 了 通用 的 分 配 律 、 交 换 律 和 结合 律 以 及 它们 在 关系 操作 符 (例如 连接 ) 中 
的 应 用 ， 同 时 也 论 及 它们 在 算术 操作 符 、 逻 辑 操作 符 以 及 比较 操作 符 中 的 应 用 。 还 讨论 了 害 等 律 
和 吸收 律 。 也 讨论 了 一 些 用 于 选择 操作 符 和 投影 操作 符 的 特殊 变换 规则 。 然 后 介绍 了 语义 转换 的 
重要 思想 ， 即 基于 数据 库 完整 性 约束 的 变换 规则 。 

以 DB2 和 Ingres 为 例 概要 地 说 明了 一 些 数 据 库 系统 维护 的 统计 信息 。 然 后 以 Ingres 原型 为 
例 提出 了 称 为 查询 分 解 的 分 而 治之 的 策略 ， 这 种 策略 可 能 对 并 行 处 理 以 及 分 布 式 环境 非常 有 用 。 

最 后 ， 我 们 讨论 了 关系 操作 符 的 实现 技术 ， 尤 其 是 连接 操作 。 我 们 给 出 了 5 种 连接 操作 实现 
方法 (强制 连接 方法 ， 索 引 查找 连接 方法 ， 散 列 查找 连接 方法 ， 归 并 连接 方法 (包括 排序 /归并 
方法 ), 以 及 散 列 连接 方法 ) 的 算法 伪 代 码 。 关 于 这 些 连 接 技术 ， 我 们 考虑 的 主要 是 其 实现 
代价 。 

遗憾 的 是 ， 现 在 的 很 多 产品 包含 一 定 的 优化 阻碍 因素 (optimization inhibitor) 。 实 际 上 ， 用 
户 在 使 用 这 些 产 品 时 也 会 发 现 这 些 问 题 (在 很 多 情况 下 ， 用 户 几 乎 没有 办 法 解决 这 些 问 题 ) 。 优 
化 阻碍 因素 指 的 是 系统 中 的 某 些 特 性 会 阻止 优化 器 生成 更 好 的 执行 计划 ， 比 如 重复 行 〈 见 参考 
文献 【6.6] ) ， 三 值 逻 辑 ( 见 第 19 章 ) 以 及 使 用 三 值 逻 辑 实现 的 SQL ( 见 参考 文献 [19.6] 和 
[19.10] ) 。 

最 后 指出 一 点 : 在 本 章 中 ， 我 们 所 讨论 的 优化 问题 是 基于 传统 的 理解 和 传统 实现 的 ， 也 就 是 
说 ， 我 们 描述 的 是 一 种 “传统 的 智慧 " 。 但 是 最 近 ， 关 于 DBMS 实现 已 经 出 现 了 一 种 全 新 的 方 
法 ， 该 方法 使 得 很 多 传统 的 假设 变 得 没有 意义 。 因 此 ， 优 化 过 程 的 很 多 方面 可 以 被 简化 (有 的 
甚至 可 以 完全 取消 ) ， 其 中 包括 : 

s “基于 代价 的 存 取 路 径 选择 ”的 使 用 (阶段 3 和 阶段 4) 

= 索引 以 及 其 它 传统 存 取 路 径 的 使 用 

s 对 于 数据 库 请 求 是 选择 编译 方法 还 是 解释 的 方法 

实现 关系 操作 的 算法 
等 等 。 附 录 A 中 有 更 深入 的 讨论 。 


习题 
18.1 上 这 和 和 “供应 商 -零件 -工程 ”数据 库 的 。 其 中 有 一 些 是 等 价 的 ， 有 一 些 则 不 
找 出 等 价 的 表达 式 。 
al § JOIN ( ( P JOIN J ) WHERE CITY = 'London' ) 


a2. ( P WHERE CITY = 'London' ) JOIN ( J JOIN S ) 


bl. ( S MINUS ( ( S JOIN SPJ } WHERE P# = P# ('P2') ) 
{ S#, SNAME, STATUS, CITY } ) 1 3 CITY } 


b2. Ss { S#, CITY } MINUS 
( § { S#, CITY } JOIN 
( SPJ WHERE P# = P# ('P2') } ) { S#, CITY } 


cl (Ss { CITY } MINUS P { CITY } ) MINUS J { CITY } 


c2. (SS { CiTY } MINUS J { CITY } ) 
MINUS ( P { CITY } MINUS J { CITY } ) 
dl. ( J 1 CITY } INTERSECT P { CITY } ) UNION S { CITY } 
d2. J { CITY } INTERSECT ( S { CITY } UNION P { CITY } ) 
el. { ( SPJ WHERE S# = S# ('S1') ) 
UNION ( SPJ WHERE P# = P# ('P1l') } ) 
INTERSECT 


( ( SPJ WHERE J# = J# (J1') )} 
UNION ( SPJ WHERE S# = S# ('S1'’) ) ) 


€2. { SPJ WHERE S# = S# {'S1') ) UNIO: 
( ( SPJ WHERE P# = P# (‘Pi') )} INTERSECT 
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18.2 
18.3 
18. 4 
18. 5 
18.6 


18.7 
18.8 
18.9 
18. 10 


18. 11 


负 五 部 分 高 级 去 题 
{ SPJ WHERE J# = J# ('J1') ) ) 
fl. ( S WHERE CITY = ‘London' ) UNION ( S WHERE STATUS > 10 ) 


f2. S WHERE CITY = 'London' AND STATUS > 10 


gl，( S { S# } INTERSECT ( SPJ WHERE J# = J# ('J1') ) { S# } ) 
UNION ( S WHERE CITY = 'London' ) { S# } 
g2. S { S# } INTERSECT ( ( SPJ WHERE J# = J# ('J1') ) ! S# } 
UNION ( 8 WHERE CITY = 'London' ) { S# } ) 
hl ( SPJ WHERE J# = J# ('J1') } { S# } 
MINUS ( SPJ WHERE P# = P# ('P1') ) { S# } 
h2. ( ( SPJ WHERE J# = J# ('J1 ) 
MINUS ( SPJ WHERE P# = p#) ('P1l') ) }) { S# } 


il. § JOIN ( P { CIiTY } MINUS J { CITY } ) 
i2. ( S JOIN P { CITY } ) MINUS (S JOIN J { CITY } ) 


说 明 连 接 操 作 、 并 操作 以 及 交 操 作 是 满足 交换 律 的 ， 而 差 操 作 不 是 。 
说 明 连接 操作 、 并 操作 以 及 交 操 作 是 满足 结合 律 的 ， 而 差 操 作 不 是 。 
说 明 : a) 并 操作 在 交 操 作 上 满足 分 配 律 ，b) 交 操 作 在 并 操作 上 满足 分 配 律 。 
证 明 吸 收 律 。 
说 明 : a) 选择 操作 在 并 操作 、 交 操作 、 差 操作 上 无 条 件 满足 分 配 律 ， 而 在 连接 操作 上 有 条 件 满足 分 
配 律 ，b) 投影 操作 在 并 操作 、 交 操作 上 无 条 件 满足 分 配 律 ， 而 在 连接 操作 上 有 条 件 满足 分 配 律 ， 在 
差 操 作 上 不 满足 分 配 律 。 说 明 在 有 条 件 情 况 下 的 关系 条 件 。 
考虑 EXTEND 和 SUMMARIZE 操作 ， 对 18.4 节 的 变换 规则 进行 扩充 。 
为 关系 除法 操作 找到 一 些 有 用 的 变换 规则 。 
给 出 使 用 AND 、OR 和 NOT 的 条 件 表达 式 的 一 组 变换 规则 。 例 如 “AND 的 交换 性 ” 即 4 AND 8 等 
价 于 B AND 4。 
考虑 EXISTS 和 FORALL 这 样 的 布尔 操作 ， 对 上 一 道 题 的 规则 进行 扩充 。 例 如 8. 2 节 的 一 个 规则 : 
将 FORALL 操作 的 表达 式 转换 为 一 个 NOT EXISTS 操作 的 表达 式 。 
以 下 是 “供应 商 -零件 -工程 ”数据 库 的 完整 性 约束 (从 第 9 章 的 习题 中 抽出 的 一 部 分 ) : 
ms 规定 城市 只 人 允许 有 London、Paris、Rome、Athens、Osio 、Stockholm 、Madrid 以 及 
Amsterdam 。 
@ 同一 个 城市 不 允许 有 两 个 工程 。 
@ 任何 时 候 在 Athens 至 多 只 有 一 个 供应 商 。 
一 次 发 货 量 不 得 大 于 平均 发 货 量 的 两 倍 。 
@ 最 高 状态 的 供应 商 不 能 与 最 低 状态 的 供应 商 在 同一 个 城市 中 。 
5 任何 工程 必须 在 至 少 有 一 个 该 工程 供应 商 的 城市 中 。 
@ 至 少 有 红色 零件 。 
@ 平均 供应 商 状态 大 于 19。 
和 每 个 London 供应 商 必须 有 零件 P2。 
至 少 有 一 个 红色 零件 重量 低 于 50 磅 。 
@ London 的 供应 商 必须 比 Paris 的 供应 商 提供 更 多 种 类 的 零件 。 
细 London 的 供应 商 必须 比 Paris 的 供应 商 提 供 更 大 量 的 零件 。 
下 面 是 一 些 对 该 数据 库 的 查询 例子 : 
a 获取 不 供应 零件 P2 的 供应 商 名 单 。 
b. 获取 不 供应 任何 一 个 在 同一 城市 中 的 工程 的 供应 商 名 单 。 
c. 获取 供应 零件 种 类 最 少 的 供应 商 名 单 。 
d 获取 位 于 Oslo 的 供应 商 名 单 , 他 们 提供 至 少 两 种 不 同 的 Paris 的 零件 给 至 少 两 个 不 同 的 
Stockholm 的 工程 。 
e. 获取 供应 商 名 单 对 ， 他 们 提供 的 零件 的 产地 是 互相 交错 的 。 
f 获取 供应 商 名 单 对 ， 他 们 供应 的 工程 的 地 点 是 互相 交错 的 。 
g 获取 零件 列表 ， 它 们 提供 给 至 少 一 个 这 样 的 工程 ， 即 该 工程 的 供应 商 与 该 工程 并 不 在 同一 
个 城市 中 。 
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h. 获取 供应 零件 种 类 最 多 的 供应 商 名 单 。 
使 用 自然 语言 〈 即 不 用 形式 化 的 表达 ) ， 利 用 数据 库 的 完整 性 约束 将 这 些 查 询 转换 为 更 为 简单 的 
形式 。 
调查 一 个 DBMS 系统 ， 看 它 做 了 上 哪些 转换 工作 ? 是 否 做 了 语义 转换 的 工作 ? 
做 一 个 实验 : 将 一 个 简单 查询 ( 比如 “获取 供应 零件 P2 的 供应 商 的 名 称 " ) 用 查询 语言 (如 SQL) 
使 用 尽 可 能 多 的 方式 表达 出 来 ， 然 后 创建 一 个 测试 数据 库 ， 将 这 些 不 同 的 查询 表达 式 交 给 这 个 数据 
库 执 行 并 测试 执行 时 间 。 如 果 执 行 时间 差 异 很 大 ， 那 么 说 明 优化 器 的 表达 式 变换 工作 没有 做 好 。 用 
多 个 查询 重复 这 个 实验 ， 如 果 可 能 的 话 ， 用 多 个 数据 库 重复 这 个 实验 。 
注意 : 这 些 查 询 表达 式 应 当 对 应 相同 的 查询 结果 。 和 否则 ， 要 人 么 是 你 的 表达 式 写 得 有 问题 ， 要 么 是 
DBMS 的 优化 器 有 问题 ， 如 果 是 后 者 ， 就 请 告知 DBMS 的 供应 商 吧 。 
调查 一 个 DBMS 系统 ， 看 它 是 否 维护 了 一 些 数据 库 统计 信息 〈 不 一 定 很 全 ) 。 如 果 是 ， 有 哪些 统计 
信息 ? 这 些 信 息 是 如 何 更 新 的 ? 是 动态 更 新 的 ， 还 是 通过 某 些 工 具 程序 实现 的 ? 如 果 是 后 者 ， 那 么 
这 些 工具 又 是 什么 呢 ? 它们 运行 的 频率 如 何 呢 ? 这 种 更 新 是 否 具有 选择 性 ， 即 根据 特定 的 统计 信息 
在 特定 的 查询 上 进行 更 新 ? 
在 18. 5 节 中 我 们 看 到 DB2 维护 的 是 每 个 基 表 的 每 一 列 的 第 2 高 和 第 2 低 的 列 值 的 统计 信息 。 那 么 
为 什么 要 选 第 2 高 和 第 2 低 的 列 值 呢 ? 
许多 商用 数据 库 系统 允许 用 户 调整 优化 器 。 例 如 在 DB2 中 ,用 户 可 以 对 一 个 游标 使 用 OPTIMIZE 
FOR n ROWS 语句 ， 用 以 指明 该 游标 检索 的 最 大 行 数 不 大 于 = (也 就 是 执行 FETCH 的 次 数 不 大 于 
7m) 。 这 种 语句 有 时 候 可 以 使 得 优化 器 选择 一 条 更 加 有 效 的 存 取 路 径 ， 至 少 在 用 户 确 实 执行 FETCH 
次 数 不 大 于 的 情况 下 是 如 此 。 那 么 ， 你 认为 系统 提供 这 种 语句 是 不 是 个 好 办 法 ， 为 什么 ? 
参考 18.7 节 中 设计 实现 连接 操作 的 方法 ,设计 一 套 选择 操作 和 投影 操作 的 实现 过 程 。 假 设 不 考虑 
CPU 时 间 以 及 其 他 的 消耗 ， 只 把 磁盘 VO 作为 唯一 的 考 甫 因素 ， 给 出 其 代价 公式 ， 并 说 明代 价 公 
式 中 的 其 他 假设 。 
阅读 附录 A 并 进行 讨论 。 
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注意 ; 有 关 分 布 式 系统 和 决策 支持 系统 的 查询 优化 技术 的 参考 文献 没有 包括 在 内 ， 分 别 见 第 21 和 22 


章 。 
[18.1] 
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Won Kim, David S$. Reiner, and Don S. Batory(eds): Query Processing in Database Systems. New 
York, N. Y. : Springer-Verlag( 1985 ). 

这 本 书 是 讨论 查询 处 理 (而 不 仅 是 查询 优化 ) 的 普遍 问题 的 一 组 论文 集 。 它 包括 由 jarke、 
Koch 和 Schmidt 写 的 介绍 性 综述 (类似 于 参考 文献 【18.2] 但 不 相同 ) ， 然 后 是 讨论 不 同情 况 下 
查询 处 理 问题 的 一 组 论文 ， 如 : 分 布 式 数据 库 、 异 质数 据 库 系 统 、 视 图 更 新 ( 参考 文献 [10. 8] 
是 这 一 节 中 关于 这 个 题目 的 唯一 文献 ) 、 非 传统 应 用 (如 CAD/CAM)、 多 语句 优化 ( 见 参 考 文 
献 【18.47]) 、 数 据 库 机 器 以 及 物理 数据 库 设计 。 

Matthias Jarke and Jiirgen Koch:“Query Optimization in Database Systems,” ACM Comp. Surv 16, 
No. 2( June 1984 ). 

本 文 是 一 篇 优秀 的 指南 。 这 篇 论文 给 出 了 查询 处 理 的 一 个 通用 框架 ， 有 点 像 本 章 18. 3 节 ， 
但 它 是 基于 关系 演算 的 ， 而 非 关 系 代数 。 在 框架 内 ,文章 讨论 了 大 量 的 优化 技术 ， 如 : 语法 和 
语义 的 转换 ， 低 层 操作 实现 以 及 产生 查询 计划 和 从 中 选择 的 算法 。 文 章 还 给 出 了 针对 关系 演算 
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[18.3] 


[18.4] 


[18.5] 


[18.6] 


[18.7] 


[18.8] 


禹 五 部 分 高 级 去 题 


的 语法 转换 规则 的 大 集合 。 还 附 了 一 个 相当 长 的 没有 注释 的 文献 列表 ; 但 是 注意 ， 自 1984 年 以 
来 ， 有 关 优 化 问题 的 文章 至 少 在 数量 上 比 那 时 增加 了 一 个 数量 级 。 

这 篇 论文 还 简要 讨论 了 其 他 的 相关 问题 : 高 层次 查询 语言 的 优化 〈 即 比 关 系 代数 或 关系 演 
算 更 加 有 表达 力 的 语言 ) 、 在 分 布 环境 中 的 查询 优化 和 有 关 优 化 的 数据 库 机 器 问题 。 
G6tz Graefe:“ Query Evaluation Techniques for Large Databases,” ACM Comp. Survy. 25, No.2(June 
1993 ) . 

本 文 是 又 一 篇 优秀 的 指南 ， 而 且 比 参考 文献 [18.2] 更 新 ， 它 列 出 的 文献 也 很 多 。 这 里 引 
用 其 摘要 :“ 这 篇 综述 提供 了 设计 和 实现 查询 执行 工具 的 基础 …… 它 叙述 了 许多 实用 的 查询 计算 
技术 -…… 包 括 复杂 查询 的 迭代 执行 技术 、 基 于 排序 和 散 列 的 集合 匹配 算法 的 二 元 性 ， 各 种 并 行 
查询 执行 及 其 实现 技术 ， 以 及 未 来 数据 库 应 用 领域 的 特殊 的 操作 符 问题 "。 推 荐 这 篇 论文 。 
Frank P. Palermo: “A Data Base Search Problem,” Tn Julius T Tou(ed. ), Information Systems: 
COINS IV. New York, N.Y. : Plenum Press( 1974). 

最 早 的 关于 优化 的 经 典 论文 之 一 。 文 章 从 一 个 关系 演算 表达 式 开始 ， 第 一 次 引用 Codd 的 
归 约 算法 (reduction algorithm) ， 用 于 将 这 个 表达 式 简 化 为 一 个 等 价 的 关系 代数 表达 式 ( 见 第 8 
章 ) ， 然 后 对 该 算法 进行 了 一 系列 的 改进 ， 下 面 是 其 中 一 些 : 

间 一 个 元 组 不 得 多 次 去 获取 。 

在 获取 元 组 的 同时 将 不 必要 的 值 去 掉 。 这 里 “不 必要 的 值 ” 指 的 是 在 查询 中 没有 使 用 的 
列 值 或 者 是 单 用 于 选择 操作 的 值 。 这 个 过 程 等 价 于 投影 “必要 的 ” 列 ， 使 得 不 仅 减少 每 
个 元 组 所 需 的 空间 ， 而 且 减 少 需要 保留 的 元 组 的 个 数 (在 通常 情况 下 ) 。 

和 用 于 建立 结果 关系 的 方法 是 基于 最 小 增长 原则 (least-growth principle) 的 ， 这 样 就 使 得 
结果 集 增长 缓慢 。 这 个 技术 可 以 减少 涉及 的 比较 操作 的 次 数 以 及 需要 存放 中 间 结 果 集 的 
存储 空间 。 

里 构造 连接 时 采用 了 一 种 高 效 的 技术 ， 包 括 (a) 动态 地 将 连接 项 (如 S. S# = SP. S#) 的 
值 分 解 为 半 连 接 (semi join) ， 这 样 就 可 以 有 效 地 动态 构造 2 级 索引 (Palermo 的 半 连 接 
不 同 于 第 7 章 中 的 半 连 接 ， 见 第 7 章 ); (b) 使 用 称 为 非 直 接连 接 (indirect join) 的 内 
部 方式 表达 每 个 连接 操作 ， 这 样 就 可 以 利用 内 部 的 元 组 ID 来 表征 每 个 参与 连接 的 元 组 。 
通过 保证 每 个 连接 参与 元 组 在 逻辑 上 按 连 接 属性 排序 ， 这 些 技术 被 设计 用 于 减少 构造 连 
接 时 的 扫描 工作 量 。 它 们 也 允许 动态 决定 存 取 所 需 关系 的 “最 优 ” 序 列 。 

Meikel Poess and Chris Floyd: “New TPC Benchmarks for Decision Support and Web Commerce,” 
ACM SIGMOD Record 29, No. 4( December 2000). 

TPC 的 意思 是 事务 处 理 委员 会 (Transaction Processing Council) ， 这 是 一 个 近年 来 发 布 了 多 
项 工业 级 标准 的 独立 机 构 。TPC - C (基于 一 个 发 货 / 进 货 系统 建 模 ) 是 一 个 测量 OLTP 性 能 的 
标准 。TPC -H 和 TPC -R 是 决策 支持 的 标准 ， 分 别 用 来 评价 特别 查询 (TPC - H) 和 计划 报告 
(TPC -R) 的 性 能 。TPC - W 用 于 测量 电子 商务 环境 下 的 性 能 。 网 站 http://www. tpc. org 上 有 
更 加 详细 的 信息 ， 包 括 大 量 实际 标准 的 案例 。 
Dina Bitton, David J. DeWitt, and Carolyn Turbyfill:“ Benchmarking Database Systems: A Systematic 
Approach,” Proc. 9th Int Conf. on Very Large Data Bases, Florence, Italy ( October/November 
1983). 

这 是 第 一 篇 描述 现在 被 称 为 “Wisconsin Benchmark”( 因为 它 是 由 在 威斯康星 大 学 的 论文 作 
者 开发 的 ) 的 论文 。 这 个 基准 测试 定义 了 精确 定义 属性 值 的 一 组 关系 ， 并 用 于 测量 这 些 关系 上 
已 精确 定义 的 各 种 关系 代数 操作 的 性 能 (例如 ， 各 种 投影 包括 不 同 程度 的 列 值 重复 情况 下 的 
投影 等 ) 。 这 个 基准 是 对 基本 的 关系 操作 的 系统 测试 。 
M. W. Blasgen and K. P. Eswaran :“ Storage and Access in Relational Databases,” IBM Sys. 人/ 16， 
No. 4( 1977). 

许多 查询 处 理 技术 ， 包 括 选 择 、 投 影 和 连接 都 是 基于 磁盘 VO 进行 比较 的 。 这 些 技术 基本 
上 在 System R [18.33] 中 实现 。 
T. H. Merrett:“ Why Sort/Merge Gives the Best Implementation of the Natural Join,” ACM SIGMOD 
Record 13, No. 2(January 1983). 

文章 提供 了 一 些 直 觉 的 观点 来 支持 如 标题 所 示 的 看 法 。 这 些 观 点 有 : 

a 如 果 两 个 连接 的 关系 在 连接 属性 上 是 有 序 的 ， 那 么 连接 操作 本 身 就 是 非常 高 效 的 (原因 
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是 正如 我 们 在 18. 7 节 所 看 到 的 ， 归 并 连接 方法 在 这 种 情况 下 改进 最 为 明显 ， 内 为 归并 连 
接 方法 要 求 每 个 页 面 都 要 存 取 有 旦 只 存 取 一 次 ， 这 样 就 得 到 了 优化 ) 。 
b. 在 足够 大 的 机 器 上 ， 将 关系 元 组 按 某 种 顺序 排序 的 代价 很 可 能 要 小 于 在 元 组 非 有 序 情况 
下 所 额外 付出 的 代价 。 
但 是 ， 作 者 承认 会 有 不 符合 他 那些 有 争议 的 观点 的 例外 情况 发 生 。 比 如 说 其 中 一 个 关系 很 
小 (例如 它 是 一 个 选择 操作 的 结果 集 ) ， 那 么 通过 索引 或 者 散 烈 方法 直接 存 取 这 个 关系 可 能 就 比 
先 排序 要 高 效 得 多 。 参 考 文献 [18.9 - 18.11] 给 出 了 更 多 的 例子 说 明 在 什么 情况 下 排序 /归并 
并 不 是 最 好 的 办 法 。 
Giovanni Maria Sacco:“ Fragmentation: A Technique for Efficient Query Processing,” ACM TODS 11, 
No. 2( June 1986). 
文章 提出 了 “分 而 治之 ”的 执行 连接 操作 的 方法 。 这 种 方法 是 将 关系 递归 地 分 割 为 相互 分 
离 的 供 选 择 操作 的 子 集 (“ 碎 片 " ) ， 并 且 在 这 些 子 集 上 面 执行 一 系列 的 顺序 扫描 。 这 种 方法 不 同 
于 排序 /归并 方法 的 地 方 在 于 ， 它 不 要 求 这 个 关系 必须 是 有 序 的 。 这 篇 论文 提出 了 : 如 果 参 与 连 
接 操 作 的 一 个 关系 或 者 两 个 关系 都 需要 实现 排序 ， 那 么 这 种 分 割 技术 的 效率 将 优 于 排序 /归并 方 
法 。 作 者 还 认为 这 种 技术 可 以 适用 于 实现 其 他 的 操作 ， 例 如 交 操 作 和 差 操 作 。 
Leonard D，Shapiro:“Join Processing in Database Systems with Large Main Memories,” ACM TODS 
11, No. 3( September 1986). 
文章 提出 了 三 种 散 列 连接 操作 算法 。 其 中 一 个 是 “ 当 可 用 的 主 存 能 够 整个 装 人 其 中 一 个 连 
接 关系 时 ， 这 种 方法 尤其 有 效 ”。 这 种 方法 是 通过 将 关系 分 解 为 能 够 在 主 存 中 处 理 的 相互 分 离 的 
分 片 ( 也 就 是 选择 操作 子 集 ) 来 实现 的 。 作 者 认为 ， 从 主 存 降价 的 趋势 来 看 ， 散 列 连接 算法 必 
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文章 提出 了 另 一 种 “分 而 治之 ”的 执行 连接 操作 的 方法 。" (这 种 方法 ) 是 基于 这 样 一 个 想 
法 …… 不 必要 将 两 个 关系 都 完全 排序 …… 只 要 保证 其 中 一 个 完全 有 序 而 另外 一 个 部 分 有 序 即 可 ， 
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的 实现 关系 除法 的 算法 ， 而 关系 除法 是 包含 了 FORALL 全 称 量词 的 实现 的 ”" 。 同 时 ， 本 文 说 明了 
这 种 新 的 算法 “在 同一 关系 上 做 存在 量词 运算 时 和 散 列 连接 (或 半 连 接 ) 一 样 快 ” (稍微 有 点 
不 同 于 原文 )。 作 者 的 结论 是 ， 相 比 其 他 的 语言 结构 而 言 ， 用 户 语言 应 当 直 接 支持 FORALL 全 称 
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David Simmen, Eugene Shekita, and Timothy Malkemus :“ Fundamental Techniques for Order Optimi- 
zation,” Proc. 1996 ACM SIGMOD Int. Conf. on Management of Data, Montreal, Canada ( June 
1996 ). 
文章 提出 了 用 于 减少 或 避免 排序 的 技术 。 这 个 技术 部 分 依赖 于 Darwen 的 工作 [11.7]， 并 
且 在 DB2 中 得 以 实现 。 
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[18.17] 


[18.18] 


[18.19] 


[18.20] 


[18.21] 


盘 五 部 分 遍 级 要 十 


文章 描述 了 在 “Smart Query Interfaces for a Relational Algebra，( 关系 代数 的 灵巧 查询 界面 ， 
SQUIRAL) 中 使 用 的 算法 。 所 使 用 的 技术 包括 : 

@ 根据 18.4 节 中 讨论 的 方法 ， 将 原 算术 表达 式 转换 为 一 个 等 价 的 、 但 更 为 高 效 的 操作 

序列 。 

到 将 这 些 操 作 符 分 配给 单独 的 进程 ， 并 且 使 用 这 些 进程 的 并 发 和 流水 线 操作 。 

@ 协调 传递 给 这 些 进程 的 临时 关系 的 排列 顺序 。 

8 使 用 索引 ， 并 且 尽 量 将 页 面 引用 局 部 化 。 

这 篇 论文 和 参考 文献 [18. 17] 是 最 早 讨论 表达 式 变换 的 论文 。 
P. A. V., Hal “Optimization of a Single Relational Expression in a Relational Data Base System,” IBM 
J R&D 20, No. 3(May 1976). 

文章 描述 了 一 些 在 系统 PRTV [7.9] 中 使 用 的 优化 技术 。 类 似 于 SQUIRAL [18. 16]， 
PRTYV 一 开始 也 是 在 计算 给 定 的 表达 式 之 前 ， 将 原 算 术 表达 式 转换 为 一 个 等 价 的 、 但 更 为 高 效 的 
形式 〈 该 文 也 是 最 早 讨论 表达 式 转换 的 论文 之 一 ) 。PRTYV 的 一 个 特征 是 ， 当 系统 收 到 一 个 表达 
式 时 ， 它 并 不 立即 开始 进行 计算 ， 而 是 将 计算 工作 推迟 到 最 后 时 刻 〈 见 第 7 章 7.5 节 的 查询 表 
达 讨 论 ) 。 因 此 文章 的 标题 “single relational expression ( 单 关 系 表 达 式 ) ”就 恰好 表征 了 用 户 操 
作 的 整个 顺序 。 本 文 论 及 的 优化 技术 和 SQUIRAL 的 类 似 ， 但 在 某 些 方面 更 为 进步 ， 包 括 ; 

@ 尽早 做 选择 操作 

时 多 个 投影 操作 组 成 的 序列 可 以 合并 为 一 个 投影 操作 

m 去 掉 元 余 的 操作 

se 简化 空 关 系 和 琐碎 的 条 件 

四 分 解 出 相同 的 子 表达 式 

该 文 用 一 些 实验 数据 和 对 进一步 研究 的 建议 作为 结尾 。 
Matthias Jarke and Jiirgen Koch:“Range Nesting: A Fast Method of Evaluate Quantified Queries,” 
Proc. 1983 ACM SIGMOD Int Conf on Management of Data, San Jose, Calif. (May 1983 ) . 

文章 定义 了 关系 演算 的 一 个 变种 ， 它 允许 使 用 一 些 附 加 的 变换 规则 ， 并 且 为 这 些 关 系 演算 
表达 式 提供 了 计算 算法 (这 种 特别 的 关系 演算 非常 类 似 于 第 8 章 的 元 组 演算 ) 。 文 章 描述 了 对 这 
种 变种 关系 演算 一 类 表达 式 的 优化 ， 这 类 表达 式 称 为 “完全 的 伐 套 表达 式 ” ( perfect nested ex- 
pression) 。 文 章 给 出 了 将 复杂 的 查询 ( 比如 说 含有 FORALL 全 称 量词 ) 转换 为 完全 表达 式 的 方 
法 。 作 者 说 明了 实际 当中 产生 的 一 个 查询 集合 是 可 以 对 应 到 完全 表达 式 的 。 
Surajit Chaudhuri and Kyuseok Shim :“ Including Group-By in Query Optimization,” Proc. 20th Int 
Conf on Very Large Data Bases, Santiago, Chile( September 1994 ). 
A. Makinouchi, M. Tezuka, H. Kitakami, and S. Adachi “The Optimization Strategy for Query Evalu- 
ation in RDB/V1,” Proc. 7th Int Conf. on Very Large Data Bases, Cannes, France ( September 
1981 ). 

RDB/V1 是 富士 通 公司 的 AIM/RDB 这 个 SQL 数据 库 系统 的 原型 。 这 篇 文章 描述 了 这 个 原 
型 系统 使 用 的 优化 技术 ， 并 且 简 要 地 将 它 间 System R 和 Jngres 的 原型 系统 进行 了 比较 。 其 中 有 
一 个 革新 性 的 技术 是 使 用 动态 包含 最 大 和 最 小 值 来 引 人 额 外 的 选择 操作 。 这 个 技术 简化 了 选择 
连接 顺序 的 过 程 ， 并 且 改 善 了 连接 的 性 能 。 一 个 改善 性 能 的 例子 是 : 假设 供应 商 表 和 零件 表 在 
城市 列 上 做 连接 。 首 先 ， 供 应 商 表 按 CITY 排序 ;在 排序 过 程 中 ， 可 以 知道 S. CITY 最 大 值 和 最 
小 值 ( 设 为 HIGH 和 LOW) 。 然 后 选择 操作 


LOW < P.CITY AND P.CITY < HIGH 


能 够 用 来 减少 一 部 分 在 连接 操作 时 使 用 的 零件 表 记录 。 
Hamid Pirahesh, Joseph M. Hellerstein, and Waqar Hasan “Extensible Rule Based Query Rewrite Op- 
timization in Starburst,” Proc. 1992 ACM SIGMOD Int. Conf. on Management of Data, San Diego, 
Calif. (June 1992). 

正如 在 18. 1 节 中 提 到 的 那样 , “查询 重 写 ” 是 表达 式 转换 的 别名 。 作 者 感叹 商用 系统 居然 
在 这 方面 没有 做 什么 工作 〈 至 少 在 1992 年 以 前 是 如 此 )。 文 章 描述 了 IBM Starburst 原型 系统 的 
查询 转换 的 工作 机 制 ( 见 参考 文献 [18. 48，26. 19，26. 23，26. 29，26. 30] ) ， 即 熟练 的 用 户 在 
任何 时 候 都 可 以 将 表达 式 转换 规则 添加 到 系统 中 (也 就 是 文章 题目 中 “extensible” ( 可 扩展 的 ) 





[18. 22] 


[18.23] 
[18. 24] 


[18. 25] 
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的 含义 ) 。 
Inderpal Singh Mumick ，Sheldon J Finkelstein, Hamid Pirahesh, and Raghu Ramakrishnan:”“ Magic Is 
Relevant,” Proc. 1990 ACM SIGMOD Int. Conf. on Management of Data, Atlantic City, N. J. (May 
1990). 

标题 中 有 一 个 并 不 十 分 贴切 的 术语 “magic” 指 的 是 “人 逻辑 数据 库 ” 语 言 Datalog ( 见 第 24 
章 ) 中 使 用 的 查询 优化 技术 ， 特 别 是 包含 递归 的 查询 。 文 章 将 这 一 技术 扩展 到 一 般 的 关系 系统 ， 
在 实验 数据 的 基础 上 ， 认 为 这 种 技术 要 比 传统 的 优化 技术 有 效 〈 注 意 ， 为 了 尽 可 能 实用 ， 查 询 
不 一 定 要 递归 )。 这 种 技术 的 基本 思想 是 将 给 定 的 查询 分 解 为 一 组 定义 为 “附加 关系 ”的 小 的 查 
询 ( 有 点 像 18.6 节 讨 论 的 查询 分 解 方法 )， 这 样 就 将 一 些 与 查询 无 关 的 元 组 过 滤 掉 了 。 下 面 给 
出 一 个 基于 这 篇 论文 的 例子 (用 关系 演算 表达 ) 。 原 查询 是 : 
{ EX.ENAME } 


WHERE EX.JOB = 'Clerk' AND 
EX.SAL > AVG ( EY WHERE EY.DEPT# = EX.DEPT#, SAL ) 


(“查找 那些 工资 高 于 所 在 部 门 平均 工资 的 员工 的 名 字 ”) 。 如 果 这 个 查询 被 直接 执行 ， 那 么 系统 
会 对 所 有 的 部 门 一 个 接 一 个 元 组 地 扫描 员工 表 ， 从 而 计算 雇佣 员工 超过 1 人 的 部 门 的 平均 工资 
许多 次 。 一 个 传统 的 优化 器 会 将 这 个 查询 分 解 为 两 个 小 的 查询 : 

WITH { EX.DEPT#, 


AVG ( EY WHERE 
EY.DEPT# = EX.DEPT#, SAL ) AS ASAL } RS T1 : 


{ EMP.ENAME } WHERE EMP.JOB = 'Clerk’' AND 
EXISTS Tl ( Be Del = T1.DEPT# AND 
SALARY > T1.ASAL ) 


现在 不 必 将 每 个 部 门 的 平均 工资 计算 多 遍 了 ， 但 是 会 计算 一 些 无 关 的 平均 值 ， 也 就 是 那些 没有 
雇佣 员工 的 部 门 。 

这 个 所 谓 的 “ 魔 集 ” ( magic) 方法 能 够 避免 第 一 种 方法 的 重复 计算 ， 也 能 避免 第 二 种 方法 
的 无 关 计 算 。 其 代价 是 生成 “附加 的 ”关系 : 


/* first auxiliary relation : name, department，, and salary */ 第 一 个 附加 员工 
和 


/* for clerks */ 
WITH ( { EMP.ENAME, EMP.DEPT#, EMP.SAL } 
WHERE EMP.JOB = 'Clerk' } AS Tl1 : 


/* Becond auxiliary relation : departments employing clerks * /第 二 个 附加 关系 ， 雇 佣 
WITH { T1.DEPT# } AS T2 : 员工 的 部 门 


/* third auxiliary relation : departments employing clerks * /第 三 个 附加 关系 ， 雇 全 
员工 的 部 门 及 相应 的 平 
均 工 资 
/* and corresponding average salaries */ 
WITH ( { T2.DEPT#, 
AVG ( EMP WHERE 
EMP .DEPT# = T2.DEPT#, SAL ) RS ASAL } ) RS T3 : 


/* result relation */ 
{ Tl.ENAME } WHERE EXISTS T3 ( Ti.DEPT# = T3.DEPT# AND 
Tl .SAL > T3.ASAL )} 


“ 麻 集 ”包括 确定 究竟 需要 哪个 附加 的 关系 。 
对 “ 魔 集 ” 进 一 步 的 引用 见 参考 文献 [18. 23，18. 24] 以 及 第 24 章 的 “参考 文献 ”部 分 。 
Inderpal Singh Mumick and Hamid Pirahesh “ Implementation of Magic in Starburst,” Proc，1994 


”ACM SIGMODP Int Conf. on Management of Data, Minneapolis, Minn. (May 1994 ) . 


Inderpal Singh Mumick, Sheldon J. Finkelstein, Hamid Pirahesh, and Raghu Ramakrishnan : “ Magic 
Conditions,” ACM TODS 21, No. 1( March 1996 ) . 
Jonathan J. King: “QUIST: A System for Semantic Query Optimization in Relational Databases,” 
Proc. 7th Int Conf. on Very Large Data Bases, Cannes, France( September 1981). 

这 篇 论文 引入 了 语义 优化 的 思想 〔( 见 本 章 18. 4 节 )。 文 章 描述 了 一 个 能 够 做 这 类 优化 的 实 
验 系统 QUIST (QUery Improvement through Semantic Transformation ， 通 过 语义 转换 的 查询 改 
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各 五 部 分 遍 级 专题 


[18. 26 1] 


[18.27] 


[18. 28] 


[18. 29] 


[ 18. 30] 


进 )。 

Sreekumar T. Shenoy and Z. Meral Ozsoyoglu:“ A System for Semantic QUery Optimization,” Proc. 

1987 ACM SIGMOD Int. Conf. on Management of Data, San Francisco, Calif. (May/June 1987). 
作者 通过 引入 一 种 模式 ， 该 模式 能 够 动态 地 从 非常 大 的 完整 性 约束 条 件 集合 中 选择 那些 有 

可 能 对 转换 一 个 给 定 查询 有 利 的 那些 约束 条 件 ， 从 而 对 King [18. 25] 的 工作 进行 扩展 。 完 整 性 

约束 有 两 个 基本 的 类 别 ， 即 蕴涵 约束 (implication constraint ) 和 子 和 集约 束 (subset constraint ) 。 

这 样 的 约束 条 件 用 于 通过 减少 元 余 的 选择 以 及 连接 操作 ， 并 在 有 索引 的 列 上 引入 附加 的 选择 操 

作 而 转换 查询 。 仅 仅 通过 约束 条 件 本 身 就 能 回答 的 查询 通过 这 种 办 法 也 是 很 高 效 的 。 

Michael Siegel, Edward Sciore ，and Sharon Salveter:“ A Method for Automatic Rule Derivation to 

Support Semantic Query Optimization,” ACM TODS 17, No. 4( December 1992). 

正如 在 18. 4 节 中 提 到 的 , 语义 优化 利用 完整 性 约束 来 转换 查询 。 但 是 ， 这 种 方法 有 一 - 些 

问题 : 
优化 器 如 何 知道 哪些 转换 将 会 有 效 (也 就 是 使 得 查询 更 加 高 效 )? 
有 些 完整 性 约束 对 于 优化 来 说 并 不 非 党 有用。 例如， 一 个 约束 条 件 是 零件 的 重量 必须 大 
于 0。 尽 管 这 个 条 件 对 于 完整 性 来 说 是 重要 的 ， 但 是 对 于 优化 却 没有 什么 用 。 优 化 器 如 
何 区 别 有 用 的 和 没有 用 的 约束 条 件 ? 
s 有 些 条 件 对 于 数据 库 的 某 些 状态 来 说 是 有 效 的 ， 甚 至 对 于 绝 大 多 数 状 态 来 说 是 有 效 的 ， 
因此 这 些 条 件 对 于 优化 是 有 用 的 。 但 是 这 些 条 件 不 是 严格 的 完整 性 约束 。 比 方 说 条 件 
“员工 年 龄 不 大 于 50”， 虽然 它 不 是 一 个 完整 性 约束 条 件 ， 也 就 是 员工 年 龄 可 以 大 于 50， 
但 在 实际 上 没有 一 个 员工 年 龄 大 于 50 的 情况 下 也 是 可 以 的 。 
文章 描述 了 针对 上 述 问题 的 系统 的 体系 结构 。 
Upen S. Chakravarthy, John Grant ，and jack Minker: “Logic Based Approach to Semantic Query Opti- 
mization,” ACM TODS 15, No. 2(June 1990). 

这 篇 文章 的 摘要 中 提 到 :“ 在 儿 篇 早期 的 论文 中 ，( 作 者 ) 描述 并 证 明了 语义 查询 优化 方法 
的 正确 性 …… 本 文 丽 固 了 那些 论文 的 主要 结论 ， 强 调 了 在 关系 查询 中 的 优化 技术 及 其 应 用 。 另 
外 ，( 本文 还 表明 ) 该 方法 包含 和 总 结 了 早期 语义 查询 优化 的 成 果 。 同 时 ，( 还 说 明了 ) 语义 查 
询 优 化 技术 可 以 扩展 到 (递归 查询 和 ) 包含 析 取 操作 、 求 反 操作 以 及 递归 运算 的 完整 性 约束 
条 件 。” 
Qi Cheng et al. :“Implementation of Two Semantic Query Optimization Techniques in DB2 Universal 
Database , ” Proc. 25th Int. Conf on Very Large Data Bases, Edinburgh, Scotland (September 1999). 
A. V. Aho, Y. Sagiv, and J. D. Ultman “Efficient Optimization of a Class of Relational Expressions,” 
ACM TODS 4, No. 4(December 1979). 

文章 标题 中 的 “relational expressions” 指 的 是 只 包含 等 值 选 择 条 件 、 投 影 和 自然 连接 (也 
称 为 SPJ 表达 式 ) 的 查询 。SPJ 表达 式 相 应 于 只 包含 等 值 比 较 、AND 操作 以 及 存在 量词 运算 的 
关系 演算 。 该 文 引入 表 关 系 (tableau) 作为 SPJ 表达 式 类 型 查询 的 方法 。 一 个 tableau 是 一 个 撼 
阵 数组 ， 它 的 列 对 应 表 的 列 属性 ， 它 的 行 对 应 条 件 : 特别 地 ， 对 应 成 员 资 格 条 件 (membership 
condition) ， 即 说 明 某 个 (或 者 子 元 组 ) 元 组 是 否 存在 于 某 个 关系 中 。 每 一 行 都 通过 出 现 的 相同 
符号 逻辑 关联 起 来 。 例 如 ， 表 示 查 询 “ 获取 供 应 某 种 红色 零件 (所) 的 ,在 London 的 供应 商 
(b1) 的 状态 (fA)” 的 tableau 如 下 : 


S# STATUS CITY P# COLOR 
£1 
b1 f1 London 一 suppliers 
bl b2 一 shipments 
b2 Red 一 parts 


这 个 tableau 最 上 面 一 行 显示 所 有 在 查询 中 涉及 的 列 属性 ， 下 一 行 是 “累计 ” 行 ( 对 应 于 关系 演 
算 查 询 的 原型 元 组 (proto tuple) 或 关系 代数 的 最 终 投 影 ) ， 剩 下 的 行 代表 成 员 资格 条 件 。 我 们 
已 经 在 例子 中 用 相关 关系 (或 者 关系 变量 ) 标 出 了 这 些 行 。 注 意 ，“b” 代 表 绑 定 的 变量 ,， “ 广 
代表 自由 变量 ; 累计 行 只 包含 “了 /7 。 

Tableau 代表 了 将 查询 转换 为 规范 格式 的 又 一 候选 方案 〈 见 18. 3 节 ) ， 但 它们 还 不 足以 表达 
所 有 的 关系 查询 (事实 上 ， 可 以 把 它们 看 作 QBE 的 语法 的 一 个 变种 ， 但 确实 不 如 QBE 有 用 ) 





[18. 31] 


[18. 32] 


[18. 33] 
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该 文 给 出 了 将 一 个 tableau 简化 为 男 一 个 语义 上 等 价 的 tableau 的 算法 ， 通 过 这 个 算法 能 够 将 tab- 
leau 的 行 数 减 至 最 少 。 因 为 tableau 的 行 数 (不 算 最 上 面 特殊 的 两 行 ) 要 比 SPJ 表达 式 的 连接 数 
多 ， 所 以 转换 后 的 tableau 代表 了 查询 的 优化 形式 。 称 之 为 优化 形式 的 一 个 方面 就 是 办 为 将 连接 
最 小 化 了 (在 上 面 的 例子 中 ,连接 的 数目 已 经 是 最 小 的 了 ， 优 化 就 没有 效果 了 )。 被 最 小 化 的 
tableau 还 能 够 被 转换 回去 ， 因 为 有 时 候 需 要 转换 为 别 的 表示 方式 以 便于 随后 的 优化 。 

最 小 化 连接 数目 的 思想 在 处 理 连接 视图 的 查询 时 可 以 实际 地 应 用 。 特 别 地 ， 使 用 “通用 关 
系 ”(universal relation) 构造 的 查询 也 是 如 此 ， 见 第 13 章 “ 参 考 文献 ”部 分 。 例 如 ,假设 用 户 
定义 一 个 视图 V， 由 供应 商 和 发 货 量 在 S# 属 性 上 做 连接 构成 ， 然 后 用 户 提出 查询 : 


V { P# } 
一 种 直接 的 视图 处 理 算法 把 这 个 查询 转换 为 如 下 形式 : 


( SP JOIN SS ) { P# } 


但 是 ,在 18. 4 节 已 经 提 到 ， 下 面 这 个 查询 会 产生 相同 的 结果 集 ， 而 且 不 必 做 连接 (也 就 是 
连接 数目 被 最 小 化 ) : 


SP { P# } 


注意 ， 因 此 可 以 说 ， 因 为 文中 给 出 的 tableau 的 简化 算法 考虑 了 任何 显 式 声明 的 列 之 间 的 函数 依 
赖 ， 所 以 这 些 算法 只 是 语义 优化 技术 的 一 些 有 限 的 例子 。 

Y. Sagiv and M. Yannakakis.“ Equivalences Among Relational Expressions with the Union and Differ- 
ence Operators,” JACM 27, No. 4( October 1980). 

扩展 了 参考 文献 [18. 30] 的 思想 ， 把 使 用 并 操作 和 差 操作 的 查询 包含 在 内 了 。 

Alon Y. Levy, Inderpal Singh Mumick, and Yehoshua Sagiv: “ Query Optimization by Predicate Move- 
Around,” Proc. 20th Int Conf on Very Large Data Bases, Santiago, Chile( September 1994). 

P. Griffiths Selinger. et al. “ Access Path Selection in a Relational Database System,” Proc, 1979 ACM 
SIGMOD Int. Conf. on Management of Data, Boston, Mass. ( May/June 1979). 

这 篇 开创 性 的 论文 讨论 了 在 System R 原型 中 使 用 的 一 些 优 化 技术 。System R 的 查询 是 SQL 
语句 形式 的 ， 也 就 是 由 一 组 “SELECT-FROM-WHERE” 查 询 块 组 成 ， 而 这 些 查 询 块 可 能 是 嵌 套 
在 一 起 的 。System R 的 优化 器 首先 决定 按照 什么 样 的 顺序 来 执行 这 些 查 询 块 ， 然 后 通过 选择 最 
小 代价 的 查询 块 执行 算法 使 得 查询 的 代价 最 小 。 注 意 这 种 策略 〈 先 选择 查询 块 执行 顺序 ， 再 优 
化 每 个 查询 块 ) 意味 着 某 些 可 能 的 查询 计划 永远 不 会 被 优化 器 考虑 到 。 实 际 上 ， 它 就 构成 了 
“ 碱 小 查询 计划 搜索 空间 ”的 技术 ( 见 18. 3 节 中 关于 这 个 问题 的 评注 ) 。 注 意 : 在 存在 媒 套 查询 
块 的 情况 下 ， 优 化 器 就 按照 用 户 指 定 的 幅 套 顺序 执行 ， 宽泛 地 说 ， 就 是 最 内 的 块 最 先 执 行 。 见 
参考 文献 [18. 37-18. 43] 对 这 种 策略 的 更 深入 讨论 和 批评 。 

对 于 一 个 给 定 的 查询 块 ， 有 两 种 基本 的 情况 要 考虑 (第 一 种 情况 实际 上 是 第 二 种 情况 的 特 
例 ): 

1) 对 于 只 涉及 单个 关系 的 选择 操作 和 /或 投影 操作 的 查询 块 ， 优 化 器 通过 使 用 目录 表 的 统 
计 信 息 ， 以 及 用 于 估计 中 间 结 果 集 大 小 的 公式 (文中 已 给 出 ) 和 对 低层 操作 的 代价 计算 ， 选 择 
出 一 个 执行 该 查询 块 的 策略 。 

2) 对 于 涉及 两 个 或 两 个 以 上 关系 连接 ， 以 及 块 内 选择 和 /或 投影 操作 的 查询 块 ， 优 化 器 : 
(a) 把 每 个 独立 的 关系 按照 上 一 种 情况 处 理 ; (b) 决定 一 个 执行 连接 的 顺序 。 操 作 (a) 和 操 
作 (b) 不 互相 独立 ; 例如 ， 一 个 给 定 的 策略 ， 比 如 说 ， 使 用 某 个 索引 来 存 取 独立 的 关系 4 刚好 
被 选中 ， 因 为 它 产 生 4 的 元 组 的 硕 序 正好 用 于 随后 同 关系 B 做 连接 操作 。 

连接 操作 可 以 通过 排序 /合并 、 索 引 查找 或 者 强制 方法 来 实现 。 需 要 指出 的 一 点 是 ， 对 散 套 
连接 (4 JOIN B) JOIN C 的 计算 ， 无 需求 出 4 与 B 连接 的 全 部 结果 后 再 求 与 C 的 连接 ; 相反 ， 
可 以 在 4JOIN 8 产生 一 个 连接 元 组 后 ， 立 即 求 与 C 的 连接 。 因 此 ， 根 本 没有 必要 将 4 JOIN B 所 
产生 的 全 部 结果 进行 物化 。 (在 3. 2 节 介 绍 过 这 一 流水 线 的 思想 。 还 可 参见 参考 文献 【18. 16 ] 
和 [18. 58]。) 

文章 还 讨论 了 几 个 优化 代价 的 问题 。 对 两 个 关系 的 连接 ， 其 代价 约 为 5 ~ 20 次 数据 库 访问 
的 代价 。 对 需要 多 次 反复 执行 的 优化 后 的 查询 而 言 ， 这 一 代价 可 以 忽略 不 计 ( 注意: System R 
为 一 编译 系统 ， 因 此 其 SQL 语句 可 以 一 次 优化 ， 多 次 执行 )。 复 杂 查 询 的 优化 代价 在 IBM Sys- 
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[18. 34] 
[18. 35] 


[18. 36] 


[ 18. 37] 


[ 18. 38] 


[18.39] 


[18. 40] 


[18.41] 
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tem 370 Model 158 上 需要 “ 几 千 字 节 的 存储 空间 和 十 分 之 几 秒 的 时 间 ”。“8 个 表 的 连接 在 几 秒 
内 可 以 完成 优化 ”。 
Eugene Wong and Karel Youssefi. “Decomposition—A Strategy for Query Processing,” ACM TODS 
1, No. 3( September 1976 ) . 
Karel Youssefi and Eugene Wong: “Query Processing in a Relational Database Management System,” 
Proc. 5th Int. Conf on Very Large Data Bases, Rio de Janeiro, Brazil ( September 1979). 
Lawrence A. Rowe and Michael Stonebraker: “ The Commercial Ingres Epilogue,” in reference 
[8. 10]. 
“商用 Ingres” 是 基于 “大 学 Ingres” 原 型 系统 的 产品 。 下 面 列 出 的 是 商用 Ingres 系统 和 大 学 In- 
gres 系统 在 优化 器 上 的 一 些 差别 : 

1) 大 学 系统 使 用 “ 增 量 计划 ”的 方法 ， 也 就 是 说 ， 它 决定 首先 应 当做 什么 ， 然 后 执行 这 
个 决定 ， 接 着 基于 刚才 的 结果 集 大 小 决定 下 一 步 该 做 什么 ， 依 此 类 推 。 而 商用 系统 在 开始 执行 
之 前 先决 定 整个 的 执行 计划 ， 这 个 决定 过 程 是 基于 对 中 间 结 果 集 大 小 的 估计 进行 的 。 

2) 大 学 系统 的 优化 器 使 用 在 18. 6 节 中 讨论 的 元 组 置换 的 方法 处 理 两 变量 查询 〈 也 就 是 连 
接 ) 。 而 商用 系统 支持 一 些 优选 技术 的 变种 用 以 处 理 这 类 查询 ， 包 括 在 18. 7 节 中 讨论 的 排序 / 归 
并 方法 。 

3) 商用 系统 使 用 更 加 复杂 的 统计 信息 。 

4) 正如 在 第 1) 点 中 提 到 的 ， 大 学 系统 使 用 增 量 计 划 的 方法 。 商 用 系统 使 用 更 为 彻底 的 
查询 计划 搜索 。 但 是 ， 如 果 用 于 优化 的 时 间 已 经 超过 其 估计 的 最 优 查 询 执行 时 间 ， 那 么 搜索 过 
程 就 会 停止 (否则 优化 的 代价 就 大 于 收益 了 )。 

5) 商用 系统 考虑 所 有 可 能 的 索引 组 合 ， 所 有 可 能 的 连接 顺序 ， 以 及 所 有 可 用 的 连接 方 
法 一 一 比如 排序 /归并 法 、 部 分 排序 /归并 法 、 散 列 查找 法 、ISAM 查找 法 、B 树 查 找 法 以 及 强 
制 连接 方法 ( 见 18.7 节 )。 

Won Kim:“On Optimizing an SQL-Like Nested Query,” ACM TODS 7, No. 3( September 1982). 

见 下 面 参考 文献 [18. 41] 的 注释 。 

‘Werner Kiessling: “ On Semantic Reefs and Efficient Processing of Correlation Queries with Aggre- 
gates,” Proc. 11th Int. Conf on Very Large Data Bases, Stockholm, Sweden( August 1985 ) . 

见 下 面 参考 文献 [18. 41] 的 注释 。 

Richard A. Ganski and Harry K. T. Wong:“Optimization of Nested SQL Queries Revisited,” Proc. 1987 
ACM SIGMOD Int Conf on Management of Data, San Francisco, Calif. (May 1987 ) . 

见 下 面 参考 文献 [18. 41] 的 注释 。 

Giinter von Biiltzingsloewen: “Translating and Optimizing SQL Queries Having Aggregates,” Proc. 13th 
Int. Conf on Very Large Data Bases, Brighton, UK( September 1987). 

见 下 面 参考 文献 [ 18. 41 ] 的 注释 。 

M. Muralikrishna:“ Improved Unnesting Algorithms for Join Aggregate SQL Queries,” Proc. 18th 
Int Conf on Very Large Data Bases，Vancouver，Canada( August 1992 ) 

SQL 语言 允许 “ 峰 套 子 查询 ”"， 宽 泛 地 说 ， 就 是 一 个 SELECT-FROM-WHERE 查询 块 中 包 
含 着 另外 一 个 这 样 的 查询 块 〈( 见 第 8 章 ) 。 这 种 结构 对 于 实现 来 说 很 不 利 。 考 虑 如 下 这 个 查询 
(“获取 供应 零件 P2 的 供应 商 的 名 字 ”) 。 我 们 将 它 称 为 查询 Ql : 





SELECT S.SNAME 
FROM 
WHERE SS.S# IN 
( SELECT SP.S# 
FROM SP 
WHERE SP.P# = P# ('P2') ) ， 


在 System R [18.33] 中 执行 这 个 查询 时 ， 首 先 计 算 内 块 而 得 到 一 个 临时 表 T，7 包含 所 要 求 的 
供应 商号 ; 然后 逐 行 扫描 8 表 ， 对 每 个 元 组 扫描 了 表 ， 看 了 表 是 否 包含 了 相应 的 3 表 供应 商号 。 
这 种 策略 显然 是 低 效 的 〈 尤 其 在 了 表 没 有 建立 索引 时 ) 。 

现在 考虑 查询 Q2: 
SELECT S.SNAME 
FROM  S, SP 


WHERE  S.S# = SP.S# 
AND SP.P# = P# ('P2') ; 





[18. 42] 


[18.43] 


[18.44] 
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这 个 查询 显然 在 语义 上 同 Cl 等 价 ,但 System R 能 够 为 它 考虑 更 多 的 执行 策略 。 特 别 地 ， 如 果 
$ 表 和 SP 表 都 恰好 按照 供应 商 导 有 序 存储 ， 那 么 System R 就 会 使 用 非常 高 效 的 归并 连接 
(merge join) 算法 。 而 且 (a) 这 两 个 查询 是 逻辑 上 等 价 的 ;(b) 第 2 个 查询 在 执行 上 更 为 有 
效 ， 所 以 将 81 转换 为 02 的 这 种 可 能 性 就 值得 研究 。 这 种 可 能 性 的 研究 见 参 考 文献 【18.37 - 
18.43] 。 

Kim [18.37] 是 第 一 个 论述 这 个 问题 的 。 他 区 分 了 5 种 嵌 套 查询 ， 并 给 出 了 相应 的 转换 算 
法 。 他 的 论文 中 有 些 实验 数据 证 实 了 这 些 转换 算法 可 以 提高 执行 效率 达 1 ~2 个 数量 级 。 

而 后 ，Kiessling [18.38] 证 实 了 在 任何 一 级 的 伐 套 子 查询 中 的 SELECT 子 句 中 有 COUNT 
操作 符 时 ，Kim 的 算法 就 不 正确 了 。 这 是 因为 Kim 的 算法 没有 正确 处 理 在 一 个 空 集合 上 进行 
COUNT 运算 的 情况 。 文 章 题目 中 的 “semantic reefs”( 语 义 暗 礁 ) 就 指出 了 SQL 的 脆弱 性 和 复 
杂 性 ， 以 致 于 用 户 对 于 这 些 查询 必须 绕 开 一 些 问题 才能 保证 其 结果 的 正确 性 和 一 致 性 。 
Kiessling 进一步 指出 Kim 的 算法 是 不 易 纠 正 的 (“无 法 在 所 有 的 情况 下 都 进行 这 种 转换 ”) 。 

Ganski 和 Wong [18.39] 提出 了 Kiessiing 发 现 的 问题 的 一 个 解决 方案 。 这 个 方法 通过 在 
转换 后 的 查询 中 使 用 外 连接 ( 见 第 19 章 ) 而 非常 规 的 内 连接 来 实现 (即使 本 文 作者 也 认为 这 
个 解决 办 法 并 不 是 很 令 人 满意 ， 因 为 它 要 求 在 转换 后 的 查询 中 的 操作 符 需要 有 一 定 的 顺序 关 
系 ) 。 这 篇 论文 还 指出 了 Kim 的 原文 中 的 另 一 个 错误 ， 并 使 用 同样 的 办 法 纠正 了 这 个 错误 。 但 
是 ， 这 篇 论文 的 转换 算法 也 有 一 些 错误 ， 其 中 有 些 和 重复 行 问题 相关 (重复 行 问 题 是 一 个 很 粳 
糕 的 “semantic reef” ) ， 另 一 些 则 和 SQL 存在 量词 有 关 (参见 第 19 章 ) 。 

von Biiltzingsloewen 的 论文 [18. 40] 代表 了 试图 将 整个 问题 放 人 理论 上 合理 的 地 位 的 尝试 
(问题 就 如 许多 作者 研究 的 那样 ， 不 论 是 从 语法 的 角度 或 是 语义 的 角度 ，SQL 形式 的 嵌 套 和 聚 
集 都 没有 被 很 好 地 理解 ) 。 该 文 定 义 了 关系 演算 和 关系 代数 的 扩展 版 本 ( 同 聚 集 和 空 值 有 关 ) ， 
并 且 证 明了 这 两 个 版 本 形式 是 等 价 的 (使 用 了 比 原先 更 为 优美 的 证 明 方 法 )。 文 章 还 通过 将 
SQL 映射 到 刚才 提 到 的 关系 演算 上 ， 定 义 了 SQL 的 语义 。 但 是 请 注意 ;: 

1) 文中 讨论 的 SQL 语言 ， 虽 然 比 参考 文献 【18. 37 - 18. 39] 中 讨论 的 SQL 距离 商用 系统 
中 使 用 的 SQL 要 更 接近 一 些 ， 但 还 不 够 正统 : 它 不 包括 UNION， 也 不 直接 支持 形 如 “ = ALL” 
或 “>ALL” 的 操作 符 〈 见 附录 B) ， 而 且 它 处 理 未 知 真 值 的 方法 不 同 于 (实际 上 要 优 于 ) 原 
SQL 语言 (参见 第 19 章 ) 。 

2) 这 篇 论文 未 考虑 删除 重复 的 问题 ， 这 样 做 是 “为 了 技术 上 的 简化 " 。 如 果 考 虑 到 〈 像 上 
面 提 到 的 那样 ) 重复 行 会 导致 转换 的 正确 与 否 的 问题 ， 这 样 做 的 真正 含义 就 不 清楚 了 [6.6]。 

最 后 ，Muralikrishna [ 18.41] 认为 Kim 原来 的 算法 [18.37] 虽然 不 正确 ， 但 仍然 比 参考 
文献 [18.39] 的 “通用 策略 ”在 某 些 情 况 下 要 高 效 一 些 。 因 此 提出 了 Kim 算法 的 另 一 个 纠正 
版 本 。 这 个 版 本 同时 也 提出 了 一 些 改进 。 

Lars Baekgaard and Leo Mark:“ Incremental Computation of Nested Relational Query Expressions ,” 
ACM TODS 20, No. 2( june 1995 ) 

这 是 另 一 篇 讨论 包含 SQL 形式 的 子 查询 的 优化 问题 的 文章 。 文 章 特别 讨论 了 相关 子 查询 
的 问题 (文章 标题 中 的 “ 氢 套 ” 特 指 SQL 形式 的 嵌 套 子 查 询 ) 。 文 中 提出 的 策略 是 (1) 将 原 
查询 转换 为 一 个 非 嵌 套 的 等 价 查询 ;(2) 然后 增 量 计 算 这 个 非凡 套 查询 的 代价 。“ 为 了 支持 步 
又 1， 我们 开发 了 一 个 简明 的 代数 - 代数 的 转换 算法 …… (转换 后 ) 的 查询 使 用 了 密集 的 
(MIN US) 操作 符 。 为 了 支持 步骤 2， 我 们 提出 和 分 析 了 一 个 高 效 的 、 用 于 增 量 计算 (MINUS 
操作 ) 的 算法 。” 术语 “ 增 量 计算 ” 指 的 是 可 以 利用 前 面 的 结果 来 计算 一 个 查询 的 代价 。 

Jun Rao and Kenneth A. Ross:“Using Invariants: A New Strategy for Correlated Queries,” Proc. 1998 
ACM SIGMOD Int Conf. on Management of Data, Seattle, Wash. (June 1998 ) . 

这 是 又 一 篇 讨论 包含 SQL 形式 的 子 查询 的 优化 问题 的 文章 。 
David H. D. Warrea: “Efficient Processing of Interactive Relational Database Queries Expressed in Log- 
ic,” Proc.7th Int Conf on Very Large Data Bases Cannes, France( September 1981). 

文章 从 一 个 不 同 的 角度 ， 也 就 是 形式 逻辑 的 角度 来 讨论 查询 优化 的 问题 ， 这 篇 论文 报告 了 
基于 Prolog 实现 的 实验 数据 库 系统 的 技术 。 这 些 技术 和 System R 使 用 的 技术 是 独立 开发 的 ， 而 
且 源 于 不 同 的 目的 ， 但 它们 非常 相似 。 这 篇 论文 认为 ， 与 普通 的 查询 语言 如 QUEL 和 SQL 相 比 ， 
基于 逻辑 的 语言 (如 Prolog 等 ) 能 够 更 为 强调 以 下 的 形式 : 
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@ 查询 的 必要 成 分 是 什么 一 一 即 逻 辑 目标 

qm 连接 这 些 成 分 的 是 什么 一 一 即 逻辑 变量 

实现 的 关键 问题 是 什么 一 一 即 达 到 目标 的 顺序 

因此 ， 作 者 认为 使 用 这 样 的 语言 可 以 更 为 方便 地 进行 优化 。 实 际 上 ， 这 样 的 语言 可 以 被 认 
为 是 查询 内 部 表达 方式 的 另 一 个 候选 (参见 18. 3 节 ) 。 

Yannis E. Ioannidis and Eugene Wong:“Query Optimization by Simulated Annealing,” Proc. 1987 
ACM SIGMOD Int. Conf on Management of Data, San Francisco, Calif. (May 1987 ) . 

查询 计划 的 搜索 空间 会 随 着 查询 涉及 的 关系 数量 的 增加 而 呈现 指数 级 的 增长 。 在 通常 的 商 
业 应 用 中 ， 一 般 查询 涉及 的 关系 数 很 少 ， 所 以 搜索 空间 也 就 在 可 以 接受 的 范围 内 。 但 在 一 些 新 
的 应 用 中 ， 查 询 涉及 的 关系 数 可 能 会 非常 大 ( 见 第 22 章 的 例子 ) 。 而 且 ， 这 些 应 用 可 能 很 需要 
做 “全 局 ”( 也 就 是 多 查询 的 ) 优化 [18. 47] 以 及 需要 递归 查询 支持 ， 这 样 更 加 导致 了 搜索 空 
间 的 显著 增 大 。 在 这 样 的 环境 中 ， 穷 举 式 的 搜索 就 行 不 通 了 ， 就 必然 需要 一 些 有 效 的 、 能 够 威 
少 搜 索 空间 的 技术 。 

这 篇 文章 引用 了 在 多 关系 查询 和 多 查询 情况 下 的 优化 的 文章 ， 但 指出 没有 -- 个 算法 是 针对 
递归 查询 优化 的 。 然 后 ， 文 章 提出 了 一 个 作者 认为 是 对 任意 大 搜索 空间 都 适用 的 算法 ， 而 且 特 
别 显示 了 如 何 将 这 种 算法 用 于 递归 查询 的 情况 。 这 个 算法 〈 称 为 “模拟 退火 算法 ” (simulated 
annealing) 是 因为 它 模拟 了 章 体 退火 的 过 程 ， 这 个 过 程 中 首先 让 浸泡 晶体 的 液体 加 热 然后 使 之 
逐渐 冷却 ) 是 个 概率 性 的 、 朴 出 算 法 。 在 别 的 文章 中 ， 它 已 经 被 成 功 地 用 于 优化 问题 。 

Arun Swami and Anoop Gupta:“Optimization of Large Join Queries,” Proc. 1988 ACM SIGMOD 
Int Conf. on Management of Data, Chicago, Hl. (June 1988 ) . 

在 含有 多 个 关系 的 查询 中 决定 连接 的 顺序 问题 〈 如 在 演绎 数据 库 中 的 应 用 ， 见 第 24 章 ) 
是 个 组 合 数学 难题 。 这 篇 论文 比较 了 一 些 有 关 该 问题 的 算法 : 随机 行走 (perturbation walk) 、 准 
随机 取样 (quasi-random sampling) 、 和 迭代 改进 (iterative improvement) 、 顺 序 启发 式 算法 (se- 
quence heuristic) 以 及 模拟 退火 过 程 (simulated annealing) [18.45] 。 根 据 这 个 分 析 ， 和 迭代 改进 
的 算法 要 比 其 他 的 算法 优秀 ; 特别 地 ， 模 拟 退 火 算法 就 其 “本 身 ” 而 言 ， 对 于 大 连接 查询 是 没 
有 用 处 的 。 

Timos K. Sellis:“ Multiple-Query Optimization,” ACM TODS 13, No. 1(March 1988). 

经 典 的 查询 优化 计划 搜索 空间 是 针对 独立 的 、 单 个 的 关系 表达 式 的 。 但 是 ， 将 多 个 不 同 的 
查询 作为 一 个 整体 同时 进行 优化 的 能 力 将 会 十 分 重要 。 之 所 以 这 样 的 一 个 原因 是 ， 在 高 层 应 用 
的 一 个 单独 的 查询 在 关系 层 看 来 却 包含 多 个 查询 。 例 如 ， 一 个 自然 语言 表达 的 查询 “Mike 拿 的 
薪水 还 不 错 吧 ?” 也 许 会 引起 3 个 单独 的 关系 查询 的 执行 : 

ss “Mike 拿 的 薪水 超过 75 000 美元 ?” 

ea “Mike 拿 的 薪水 超过 60 000 美元 ,但 他 的 工作 经 验 少 于 5 年 ?” 

@ “Mike 拿 的 薪水 超过 45 000 美元 ， 但 他 的 工作 经 验 少 于 3 年 ?” 

这 个 例子 显示 了 一 组 有 关 的 查询 很 可 能 有 些 相同 的 子 表达 式 ， 因 此 也 就 需要 全 局 优化 。 

文章 只 考虑 了 包含 选择 和 /或 等 值 连接 的 合 取 操作 的 情况 。 还 给 出 了 一 些 令 人 鼓舞 的 实验 结 
果 ， 并 指出 了 未 来 的 研究 方向 。 

Guy M. Lohman “Grammar-Like Functional Rules for Representing Query Optimization Altermnatives 
Proc. 1988 ACM SIGMOD Int. Conf on Management of Data, Chicago, Ili. (June 1988 ) . 

在 某 些 方面 ， 可 以 将 一 个 关系 的 优化 器 看 作 是 一 个 专家 系统 ; 但 是 ， 优 化 器 所 使 用 的 这 些 
优化 规则 都 是 嵌 和 人 在 程序 中 的 ， 没 有 单独 声明 。 这 样 就 不 容易 栅 人 一 些 新 的 优化 技术 来 扩展 优 
化 器 的 功能 。 未 来 的 数据 库 系 统 ( 见 第 26 章 ) 将 使 得 这 个 问题 更 为 严重 ， 因 为 显然 这 些 系统 需 
要 分 别 安装 以 扩展 优化 器 来 支持 各 种 用 户 自 定义 的 数据 类 型 。 许 多 研究 者 提出 基于 传统 的 专家 
系统 架构 的 优化 器 ， 并 且 使 用 显 式 声明 的 优化 规则 。 

但 是 ， 这 个 想法 的 一 个 障碍 是 性 能 问题 。 特 别 地 ， 在 优化 处 理 的 每 个 阶段 都 有 大 量 可 用 的 
规则 ， 所 以 需要 复杂 的 计算 来 决定 使 用 哪个 规则 。 这 篇 论文 提出 一 个 替代 办 法 〈 在 Starburst 原 
型 系统 中 实现 ， 见 参考 文献 [18. 21 ，26. 19，26. 23 ，26. 29，26. 30] ， 这 个 方法 利用 描述 形式 语 
言 、 类 似 于 语法 的 产生 式 规则 来 声明 优化 规则 。 这 些 产生 式 规则 被 称 为 STAR (STrategy Altermna- 
tive Rule) ， 它 允许 从 其 他 查询 计划 以 及 “低层 计划 操作 符 ” (LOLEPOP) 递归 构造 当前 的 查询 
计划 。 这 些 “ 低 层 计划 操作 符 ” 是 基本 的 关系 操作 ， 如 连接 、 排 序 等 。LOLEPOP 有 许多 特性 ， 
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例如 ， 连 接 LOLEPOP 有 排序 /归并 特性 、 散 列 特性 等 。 

文章 认为 上 述 的 方法 有 许多 好 处 : STAR 规则 很 容易 理解 ， 在 给 定 情况 下 决定 使 用 哪个 优 
化 规则 的 过 程 很 简单 ， 而 且 比 传统 的 专家 系统 要 高 效 ; 同时 也 满足 了 扩展 优化 器 的 目的 。 
Ryohei Nakano.:“ Translation with Optimization from Relational Calculus to Relational Algebra Having 
Aggregate Functions,” ACM TODS 15, No. 4( December 1990). 

正如 在 第 8 章 (8.4 节 ) 中 说 明 的 一 样 ， 使 用 关系 演算 表达 的 查询 可 以 按 如 下 步 又 执行 : 
(a) 将 该 关系 演算 表达 式 转换 为 关系 代数 表达 式 ; (b) 优化 这 个 关系 代数 表达 式 ; (c) 最 后 执 
行 这 个 优化 过 的 表达 式 。 在 文章 中 ，Nakano 提出 了 一 个 模式 ， 将 步骤 (a) 、(b) 合并 为 一 步 ， 
即 直接 将 一 个 关系 演算 表达 式 转换 为 一 个 优化 的 关系 代数 表达 式 。 这 个 模式 被 认为 是 “更 为 有 
效 的 和 有 希望 的 …… 因 为 优化 复杂 的 代数 表达 式 似 乎 很 困难 ”。 这 个 转换 过 程 利用 了 一 些 启发 式 
规则 ， 这 些 规 则 包含 了 关于 等 价 的 关系 演算 和 关系 代数 的 知识 。 
Kyu-Young Whang and Ravi Krishnamurthy :“ Query Optimization in a Memory-Resident Domain Rela- 
tional Calculus Database System,” ACM TODS 15, No. 1( March 1990 ) . 

这 篇 文章 说 明了 查询 处 理 中 代价 最 大 的 方面 是 计算 布尔 表达 式 (假设 在 主 存 环境 中 ) 。 所 以 
在 这 种 环境 中 优化 的 目标 就 是 减少 这 类 计算 。 
Johann Christoph Freytag and Nathan Goodman:“ On the Translation of Relational Queries into lterative 
Programs,” ACM TODS 14, No. 1( March 1989). 

这 篇 文章 提出 了 用 C 或 PASCAL 等 语言 直接 将 关系 表达 式 编译 为 可 执行 代码 的 方法 。 注 意 
这 个 方法 有 别 于 本 章 讨论 的 方法 ， 本 章 的 方法 是 让 优化 器 有 效 地 合并 预 写 的 (参数 化 的 ) 代码 
片段 来 构造 查询 计划 。 
Kiyoshi Ono and Guy M. Lohaman : ”Measuring the Complexity of Join Enumeration in Query Optimi- 
zation, ”Proc. 16th Int. Conf on Very Large Data Bases, Brisbane, Australia( August 1990 ) 

因为 连接 是 个 两 值 操 作 ， 所 以 优化 器 必须 将 包含 半 个 关系 (ma >2) 的 连接 分 解 为 一 系列 的 
两 值 连接 。 许 多 优化 器 按照 严格 的 嵌 套 方式 进行 : 它们 首先 选择 一 个 参与 连接 的 关系 对 ， 然 后 
将 第 3 个 关系 和 前 面 两 者 的 结果 集 做 连接 ， 由 此 类 推 。 换 句 话说， 一 个 形 如 A JOIN B JOIN C 
JOIN DD 的 表达 式 必 须 被 处 理 为 (《 (D JOIN 8) JOIN C) JOIN 4， 而 不 能 处 理 为 (4 JOIN D) 
JOIN (B JOIN C)。 而且， 传统 的 优化 器 都 设计 为 尽 可 能 避免 笛 卡 尔 积 的 运算 。 这 些 策略 都 可 以 
被 看 作 是 “减少 搜索 空间 ”的 办 法 ( 当然， 选择 连接 顺序 的 启发 式 规则 还 是 需要 的 ) 。 

这 篇 文章 描述 了 BM Starburst 原型 系统 的 优化 器 的 相关 方面 ( 见 参考 文献 [18. 21 ，18. 48 ， 
26. 19，26. 23，26. 29 ，26. 30) 。 文 章 认 为 前 面 的 两 种 策略 在 某 些 情况 下 都 是 可 行 的 ， 因 此 一 个 
可 适应 的 优化 器 应 当 针对 不 同 的 查询 使 用 不 同 的 策略 。 
Bennet Vance and David Maier:“Rapid Bushy Join-Order Optimization with Cartesian Products,” 
Proc. 1996 ACM SIGMOD Int Conf. on Management of Data, Montreal, Canada( June 1996 ) . 

正如 在 参考 文献 【18. 52] 中 提 到 的 ， 优 化 器 通过 避免 做 笛 卡 尔 积 来 “减少 搜索 空间 ”。 这 
篇 论文 说 明 搜 索 整 个 空间 “ 比 先前 认为 的 更 为 可 取 ”， 并 且 避 人 免 做 向 卡尔 积 并 不 一 定 有 利 (有 
关 这 一 连接 的 讨论 可 参见 第 22 章 的 “ 星 型 连接 ”)。 根 据 作 者 的 观点 ， 本 文 的 主要 贡献 是 (a) 
从 谓词 分 析 中 完全 分 离 了 连接 顺序 列举 问题 ，(b) 为 连接 顺序 列举 问题 提出 了 “创造 性 的 实现 
Yannis E. foannidis ，Raymond T. Ng, Kyuseok Shim ，and Timos K. Sellis:“ Parametric Query Optimi- 
zation,” Proc. 18th Int. Conf. on Very Large Data Bases, Vancouver, Canada( August 1992). 

考虑 如 下 查询 : 


BMP WHERE SALARY > salary 


这 里 的 salary 是 个 运行 时 参数 。 假 如 在 SALARY 属性 上 有 个 索引 ， 那 么 : 
am 如 果 salary 是 每 个 月 10 000 美元 ， 那 么 最 好 的 办 法 是 使 用 索引 来 执行 这 个 查询 〈 因 为 假 
设 绝 大 部 分 雇员 都 达 不 到 这 个 水 平 ) 。 
@ 如 果 salary 是 每 个 月 1000 美元 ， 那 么 最 好 的 办 法 是 使 用 顺序 扫描 来 执行 这 个 查询 (因为 
假设 绝 大 部 分 雇员 都 达到 了 这 个 水 平 ) 。 
这 个 例子 说 明 即 便 在 编译 系统 中 ， 有 些 优化 决策 也 应 当 在 运行 时 进行 。 本 文 考虑 了 在 编译 
时 产生 一 组 查询 计划 (每 个 计划 对 应 某 一 组 参数 都 是 “优化 的 ") ， 然 后 在 运行 时 根据 参数 选择 
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一 个 适当 的 方案 。 特 别 地 ， 它 侧重 于 一 个 查询 可 用 的 缓冲 区 数量 这 个 参数 。 实 验 结果 表明 这 个 
附加 的 过 程 稍 微 增加 了 一 点 开销 ， 但 对 于 它 带 来 的 优化 效果 来 说 是 微不足道 的 。 因 此 ， 作 者 认 
为 这 个 方法 可 以 大 大 改善 查询 性 能 。“ 使 用 根据 参数 值 特别 定制 的 查询 计划 而 获得 的 执行 代价 方 
面 的 收益 …… 是 巨大 的 。” 

Navin Kabra and David J. Dewitt.“ Efficient Mid-Query Re-Optimization of Sub-Optimal Query Execu- 
tion Plans ，” Proc. 1998 ACM SIGMODP Int Conf. on Management of Data, Seattie, Wash. (June 
1998 ) . 

Jim Gray :“Paralel Database Systems 101,” Proc. 1995 ACM SIGMOD Int. Conf. on Management of 
Data, San Jose, Calif. (May 1995 ) . 

这 不 是 一 篇 研究 论文 ， 而 是 一 个 讲座 简报 的 扩充 概述 。 概 括 地 说 ， 并 行 数据 库 系统 的 基本 
思想 是 将 一 个 大 问题 分 解 为 若干 个 可 以 同时 解决 的 小 问题 ， 从 而 改进 性 能 (吞吐 量 和 响应 时 
间 )。 从 关系 系统 的 本 质 来 看 ， 关 系 系统 对 于 并 行 执行 来 说 尤其 有 利 : 它 从 概念 上 就 容易 (a) 
有 许多 办 法 将 关系 分 解 为 多 个 子 关 系 ， 而 且 (b) 可 以 有 多 种 方法 将 关系 表达 式 分 解 为 多 个 子 表 
达 式 。 下 面 稍微 说 明 一 些 并 行 数据 库 系 统 的 基本 概念 。 

首先 ， 硬 件 系统 要 在 一 定 程 度 上 支持 并 行 性 。 有 三 种 基本 的 并 行 架 构 ， 各 自 包 括 若干 处 理 
单元 、 若 干 磁盘 驱动 器 以 及 一 个 互连网 络 ; 

@ 共享 内 存 (shared memory ) : 网 络 允 许 所 有 的 处 理 器 存 取 同一 内 存 。 

@ 共享 磁盘 (shared disk) : 每 个 处 理 器 都 有 自己 的 内 存 , 但 网 络 允许 所 有 的 处 理 器 存 取 所 
有 的 磁盘 。 

下 无 共享 (shared nothing) : 每 个 处 理 器 有 自己 的 内 存 和 磁盘 ,但 网 络 允许 处 理 器 之 间 互 相 
通信 。 

在 实际 中 ， 通 常 选择 无 共享 结构 ， 至 少 对 于 大 系统 是 如 此 ( 随 着 处 理 器 的 增加 ， 其 他 两 种 
架构 很 容易 导致 相互 的 干扰 问题 )。 特 别 地 ， 无 共享 系统 能 够 提供 线性 加 速 比 ( speed-up， 提 高 
AN 倍 硬件 性 能 导致 响应 时 间 N 倍 减少 ) 和 线性 伸缩 比 (scale-up， 提 高 N 倍 硬件 性 能 及 N 倍数 据 
量 能 够 保证 响应 时 间 不 变 ) 。 注 意 :;“ 伸 缩 比 ”也 被 称 为 “伸缩 性 ” (scalability ) 。 

有 许多 种 数据 分 片 〈data partitioning) 的 方法 (即将 关系 + 分解 为 若干 分 片 或 者 子 关系 ， 并 
县 将 这 些 分 片 分 配给 n 个 不 同 的 处 理 器 ) : 

范围 分 片 (range partitioning) : 基于 关系 + 的 某 个 属性 集 *，r 被 分 为 若干 不 相交 的 分 片 
1，2，..…，no。( 从 概念 上 讲 , r 在 s 上 有 序 , 并且 将 排序 结果 分 为 n 个 大 小 相等 的 分 片 。) 

分 片 i 被 分 配给 处 理 器 ji。 这 种 方法 对 于 在 * 上 包含 等 值 或 者 范围 选择 的 查询 有 利 。 

到 散 列 分 片 〈hash partitioning) : r 的 每 个 元 组 :被 分 配给 处 理 器 i =h (为 ， 这 里 的 疡 是 基 个 
散 列 函数 。 这 个 方法 对 于 涉及 在 被 散 列 函 数 处 理 过 的 一 个 或 多 个 属性 上 进行 等 值 选择 的 
查询 ， 以 及 涉及 对 整个 关系 进行 顺序 存 取 的 查询 有 利 。 

到 循环 分 片 〈(round-robin partitioning) ; 从 概念 上 讲 ，r 按 某 种 方式 排序 ; 在 排序 结果 集中 
的 第 i 个 元 组 被 分 配给 处 理 器 (i MOD m) 。 这 个 方法 对 于 需要 对 整个 关系 上 进行 顺序 存 
取 的 查询 有 利 。 

可 以 对 单个 操作 实施 并 行 ， 称 之 为 操作 内 (intraoperation) 并 行 ; 也 可 以 对 在 同一 个 查询 内 

的 多 个 操作 实施 并 行 ， 称 之 为 操作 间 (interoperation) 或 查询 内 (intra query) 并 行 ; 还 可 以 对 
不 同 查 询 的 执行 实施 并 行 ， 称 之 为 查询 间 (interquery) 并 行 。 参 考 文献 [18.3] 有 所 有 这 些 可 
能 性 的 讲座 ， 参 考 文献 [18. 57，18. 58] 讨论 了 一 些 特定 的 技术 和 算法 。 在 实际 中 ， 散 列 连接 
(hash join， 见 18.7 节 ) 是 特别 有 效 的 ， 并 被 广泛 应 用 。 

Dina Bitton, Haran Boral, David J. DeWitt, and W. Kevin Wilkinson:” Parallel Algorithms for the Ex- 
ecution of Relational Database Operations,” ACM TODS 8, No. 3( September 1983 ) . 

这 篇 文章 提出 了 在 多 处 理 器 环境 中 的 排序 、 投 影 、 连 接 、 褒 集 和 更 新 操作 的 算法 。 给 出 了 
考虑 到 IO、 消 息 传 递 以 及 处 理 器 时 间 的 代价 公式 ， 并 且 能 够 通过 调整 适用 于 不 同 的 多 处 理 器 
架构 。 

Waqar Hasan and Rajeev Motwani : “Optimization Algorithms for Exploiting the Parallelism Communi- 
cation Tradeoff in Pipelined Parallelism,” Proc. 20th Int Conf on Very Large Data Bases, Santiago, 
Chile( September 1994 ) . 

Donald Kossmann and Konrad Stocker; “Iterative Dynamic Programming: A New Class of Optimiza- 





代 18 自 多 化 361 





[18. 60 ] 


[18.61 ] 





[18. 62 ] 


tion Algorithms，“4CM TODS 25, No. 1 (March 2000). 

Parke Godfrey, Jarek Gryz, and Calisto Zuzarte: “ Exploiting Constraint-Like Data Characterizations in 
Query OQptimization,“ Proc. 2001 ACM SIGMOD Int Conf on Management of Data, Santa Barbara, 
Calif. (May 2001 ) . 

Alin Deutsch, Lucian Poppa, and Val Tannen: “Physical Data Independence, Constraints, and Optimi- 
zation with Universal Plans, “ Proc. 25th Int. Conf on Very Large Data Bases, Edinburgh, Scotland 
( September 1999 ). 

Michael Stillger, Guy Lohman, Volker Marki, and Mohtar Kandil: “ LEO-DB2's LEaming Optimi- 
zer,” Proc. 27th Int. Conf. on Very Large Data Bases, Rome, Italy( September 2001). 





第 19 章 信息 空缺 


19.1 引言 


在 现实 世界 中 ， 信 息 是 经 常 有 空缺 的 ; 比如 “不 知道 生日 ”"、“ 等 待 宣布 的 发 言 人 ”、“ 当 前 
住址 不 详 ” 等 等 ， 对 此 我 们 大 家 都 已 习以为常 。 为 此 ， 很 明显 数据 库 系 统 里 需要 有 某 些 方法 来 
处 理 这 样 的 信息 空缺 问题 。 这 个 问题 的 解决 方法 是 基于 空 值 (null) 和 三 值 逻辑 (three - valued 
logic，3VL) ， 并 已 很 普遍 地 运用 于 实际 系统 中 ,尤其 是 SQL 及 许多 相关 商业 产品 中 。 举 个 例 
子 ， 我 们 可 能 不 知道 某 些 零件 比如 零件 P7 的 重量 ， 于 是 可 能 会 很 随意 地 说 这 个 零件 的 重量 “是 
null”， 这 句 话 更 准确 的 意思 是 : a) 我 们 知道 这 个 零件 存在 ; b) 也 知道 这 个 零件 有 重量 ; c) 但 
我 们 不 知道 重量 是 多 少 。 

如 果 更 进一步 考虑 如 何在 数据 库 中 表达 零件 P7 的 元 组 ， 很 显然 ， 我 们 不 能 在 这 个 元 组 上 放 
一 个 真正 的 WEIGHT 值 。 于 是 ， 替 代 的 做 法 是 在 这 个 元 组 的 WEIGHT 位 置 标 上 “null” 标 记 ， 
把 这 个 标记 的 精确 意思 解释 为 我 们 并 不 知道 这 个 标记 的 真正 值 是 什么 。 这 里 说 WEIGHT 位 置 
“包含 一 个 nul”， 或 认为 WEIGHT 值 “是 null”， 是 一 种 不 十 分 严格 的 说 法 ， 尽 管 在 实际 中 我 们 
经 常 这 样 讲 。 严 格 地 讲 ， 说 某 些 元 组 的 WEIGHT 字段 值 “ 是 null” ， 其 实 是 说 那个 元 组 根本 没有 
包含 WEIGHT 值 。 这 里 不 赞成 使 用 “null value” ( 空 的 值 ) 这 种 说 法 ， 原 因 是 : 精确 地 讲 ，null 
不 是 值 ， 重 复 一 下 ， 它 们 是 标记 或 标志 。 

接 下 来 ， 我 们 将 在 下 一 节 看 到 任何 包括 空 比较 字 (comparand) 的 标量 比较 式 (scalar com- 
parison) 的 值 都 等 于 真 值 unknown (未 知 ) ， 而 不 是 true ( 真 ) 或 false ( 假 )。 这 样 做 的 理由 是 把 
null 解释 成 “unknown 值 ”: 如 果 不 知道 4 的 值 ， 那 么 很 明显 ，4 是 否 大 于 8B 也 是 unknown， 不 
管 B 的 值 是 多 少 (比较 特殊 的 情况 是 B 的 值 也 是 unknown) 。 于 是 ， 尤 其 需要 注意 两 个 nuli 之 间 
不 能 相等 ， 即 如 果 4 和 五 都 是 null， 则 比较 式 4 =8 的 值 等 于 unknown， 而 不 是 true (也 不 能 认 
为 它们 是 不 相等 ， 即 比较 式 AB 的 值 也 是 unknown)。 因 此 就 有 了 术语 “三 值 逻辑 ” (3VL): 
空 值 概念 导致 这 样 的 逻辑 : 它 包括 三 个 真 值 ，true 、false 和 unknown。 

在 进一步 讨论 之 前 ， 应 当 很 清楚 的 是 ， 以 我 们 的 观点 来 看 (包括 其 他 很 多 作者 也 持 这 个 观 
点 ) ， 空 值 和 3VL 是 非常 严重 的 错误 ， 在 像 关系 模型 这 样 清晰 规范 的 系统 中 应 该 没有 它们 的 位 
置 。 例 如 ， 如 果 说 某 个 零件 元 组 不 包含 WEIGHT 值 ? ,实际 上 也 就 是 说 这 个 有 问题 的 元 组 终究 
不 是 一 个 零件 元 组 ; 同样 ， 也 就 是 说 有 问题 的 元 组 并 不 是 一 个 可 应 用 谓词 的 实例 。 实 际 上 ， 有 问 
题 的 “元 组 ”根本 就 不 能 算是 一 个 元 组 ! (参考 第 6 章 中 对 元 组 的 定义 就 可 以 很 容易 地 发 现 这 一 
点 。) 事实 是 ， 试 图 准确 描述 空 模式 是 什么 的 做 法 足以 说 明 为 什么 这 一 思想 在 逻辑 上 不 是 严格 一 
致 的 ， 所 以 也 很 难 对 它 有 一 个 一 致 的 解释 。 用 参考 文献 [11. 10] 的 话 来 说 就 是 : “如 果 你 稍 不 
注意 ,不 考虑 太 多 ， 它 好 像 就 有 意义 。” 

但 是 ， 对 空 值 和 3VL 不 加 介绍 是 不 合适 的 ; 因此 本 书 保留 这 部 分 内 容 。 

本 章 的 内 容 是 这 样 安排 的 。 引 言 之 后 ， 在 19. 2 节 里 ， 先 描述 空 值 和 3VL 的 基本 思想 ,但 不 
对 这 些 思想 提出 过 多 的 批评 。( 很 显然 ， 如 果 不 介绍 这 些 思想 是 怎么 回 事 ， 就 不 可 能 对 它们 进行 
适当 和 公正 地 批评 。) 然后 在 19.3 节 里 ， 我 们 讨论 了 这 些 思想 所 带 来 的 一 些 重 要 的 后 果 ， 以 此 来 
证 明 我 们 的 观点 。 即 空 值 是 一 个 错误 。19. 4 节 讨 论 了 空 值 在 主 码 和 外 码 上 的 潜在 影响 。 在 19. 5 
节 里 ， 讨 论 了 在 空 值 和 3VL 环境 中 所 遇 到 的 操作 ， 即 外 连接 操作 。19. 6 节 非 常 简短 地 介绍 了 信 
息 空 缺 的 一 种 替代 解决 方法 ， 即 使 用 特殊 值 。19.7 节 栈 述 了 SQL 的 有 关 空 值 方面 的 内 容 。 最 后 ， 
在 19. 8 节 中 对 本 章 内 容 进 行 了 小 结 。 

最 后 ， 一 个 预先 要 引起 注意 的 问题 是 : 可 能 有 很 多 原因 使 我 们 不 能 在 某 些 元 组 的 某 些 位 置 放置 
真正 的 数据 值 , “未知 值 ” 仅 仅 是 其 中 一 个 原因 。 其 他 原因 包括 “ 值 不 可 应 用 ”、“ 值 不 存在 "、“ 值 





OO 在 本 书 的 其 他 地 方 ， 我们 用 大 写字 母 表示 真 值 。 而 在 本 章 中 ,我们 用 小 写字 和 母 表示 真 值 (主要 是 为 了 与 其 他 刊 


物 中 对 相同 主题 的 描述 保持 一 致 ) 。 
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没有 定义 "、“ 值 没有 提供 ”等 等 [19. 5]”。 其 实 ， 在 参考 文献 [6.2] 里 ，Codd 提出 关系 模型 应 
当 包 括 两 个 空 值 而 不 是 一 个 空 值 : 一 个 意味 着 “未 知 值 ”; 另 一 个 意味 着 “ 值 不 可 应 用 ”"。 于 是 他 
进一步 提出 DBMS 应 当 处 理 的 是 四 值 逻辑 ， 而 不 是 三 值 逻辑 。 在 [19.5] 中 我 们 对 这 种 提 法 已 提 
出 异议 ; 在 本 章 里 ， 我 们 仅仅 讨论 单一 种 类 的 空 值 ， 即 “未 知 值 ”型 空 值 ， 以 后 我 们 按照 定义 ， 经 
常 〈 但 不 是 所 有 情况 下 ) 把 它 称 为 UNK (对 于 unknow 类 型 ) 。 


19.2 3VL 方法 概述 


在 这 一 节 里 ， 简 要 叙述 应 用 于 信息 空缺 上 的 3VL 方法 的 基本 组 成 部 分 。 下 面 首先 讨论 空 
( 特 指 UNK) 对 布尔 表达 式 的 影响 。 

1. 布尔 表达 式 

前 面 已 经 说 过 ， 只 要 标量 比较 式 中 的 两 个 操作 数 之 一 是 UNK， 那 么 这 个 比较 式 的 值 就 等 于 
真 值 unkown， 而 不 是 true 或 false。 接 下 来 讨论 三 值 钦 辑 (3VL) : Unknown (以 后 经 常 (但 不 是 
所 有 情况 ) 把 它 缩写 为 unk) 就 是 “第 三 个 真 值 "。 下 面 是 AND、OR 和 NOT 在 3VL 上 的 真 值 
表 (t=trme, f =false, u =unk): 


tuf 
ttet 
tuu 
tuf 





然而 AND、OR 和 NOT 并 不 是 所 需要 的 布尔 操作 符 的 全 部 [19. 11] ; 另 一 个 重要 的 操作 符 
是 MAYBE [19.5]， 它 的 真 值 表 如 下 : 


MAYBE 


f 
u t 
f 


为 了 说 明 为 什么 需要 MAYBE， 现 在 来 考虑 这 样 一 个 查询 : “ 查 出 可 能 是 《但 不 确切 知道 一 
定 是 ) 在 1971 年 1 月 18 日 之 前 出 生 的 、 工 资 少 于 50 000 美元 的 程序 员 ”。 用 MAYBE 操作 符 ， 
这 个 查询 可 以 像 下 面 这 样 简洁 地 表达 出 来 :” 


EMP WHERE MAYBE ( JOB = 'Programmer' AND 
DOB < DATE ('1971-~1-19' ) AND 
SALARY < 50000.00 ) 
假定 表 EMP 的 属性 JOB 、DOB 和 SALARY 的 类 型 分 别 是 CHAR、DATE 和 RATIONAL (有 理 
数 )。 然 而 ， 如 果 没 有 MAYBE 操作 符 ， 这 个 查询 可 表达 如 下 : 


EMP WHERE ( JOB = 'Programmer’ 
OR IS UNK ( JOB ) )} 
AND ( DOB < DATE {'1971~1-18') 





”需要 说 明 的 是 ， 其 实 并 不 存在 上 述 所 说 的 各 种 各 样 的 “空缺 信息 ”。 比 如 ， 如 果 我 们 说 个 金 对 于 雇员 Joe“ 不 适 
用 " ， 可 以 非常 清楚 地 说 佣金 属性 不 应 用 于 Joe。 这 里 并 不 存在 信息 空缺 (然而 还 是 这 种 情况 ， 如 果 在 Joe 的 “ 雇 
员 元 组 ”的 佣金 属性 中 “包含 ”一 个 “不 适用 的 null" ， 那 么 这 个 元 组 就 不 是 一 个 雇员 元 组 ， 即 它 不 是 一 个 “ 雇 
员 ” 谓 词 的 实例 。) 

四 “为 了 举例 的 需要 ， 我 们 假设 Tutorisl D 支持 UNK 和 3VL， 而 事实 上 是 不 支持 的 。 
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OR IS UNK ( DOB ) ) 
AND ( SALARY < 50000.00 
OR IS UNK ( SALARY ) ) 
AND NOT ( JOB = 'Programmer' AND 
DOB < DATE ('1971-1-18') AND 
SALARY < 50000.00 ) 


假定 存在 另 一 个 真 值 操 作 符 叫 IS_UNK， 它 是 一 元 操作 符 ， 如 果 操 作 数 的 值 是 UNK， 则 返 
回 tue; 否则 返回 false。( 另 一 方面 ， 非 标量 比较 式 也 需要 一 个 IS_UNK 方案 。 但 我 们 在 这 
儿 并 不 打算 定义 它 ， 因 为 其 中 所 包含 的 复杂 性 是 很 令 人 温 表 的， 而且 我 们 并 不 真 的 信赖 
3VL 方法 。) 

顺便 提 一 句 ， 上 述 内 容 并 不 表明 MAYBE 是 3VL 需要 的 唯一 新 的 布尔 操作 符 。 其 实 ， 比 如 
TRUE_OR_MAYBE 操作 符 (如果 它 的 操作 数值 为 tue 或 upk， 则 返回 tme， 否 则 返回 false) 也 
是 非常 有 用 的 [19.5] 。 见 本 章 最 后 “参考 文献 及 其 简介 ”中 [19. 11] 的 注释 。 

2. 量词 

尽管 本 书 的 大 部 分 例子 是 基于 代数 而 不 是 演算 ， 但 我 们 还 需 考虑 EXISTS 和 FORALL 上 的 
3VL 的 潜在 影响 。 如 在 第 8 章 介 绍 的 一 样 ， 我 们 分 别 把 EXISTS 和 FORALL 定义 为 迭代 的 OR 和 
AND。 换 名 话说， 如 果 a) r 是 一 个 关系 ， 它 具有 元 组 生 ， 人，...，tm; b) V 是 在 这 个 关系 上 的 
范围 变量 ; c) p (V) 是 一 个 布尔 表达 式 ， 其 中 Y 是 一 个 自由 变量 ， 那 么 表达 式 


EXISTS V (p (Vv)) 


被 定义 成 等 价 于 下 列表 达 式 


false ORp (tl )OR ...ORP ( tm ) 


同样 ， 表 达 式 


FORRALL V (PP (YY ) ) 


被 定义 成 等 价 于 如 下 表达 式 


true AND p (tl ) AND ... AND p (tm ) 


因此 ， 如 果 对 于 某 些 i，p (fi) 等 于 unk, 将 会 怎么 样 ? 现 通过 一 个 例子 来 说 明 。 假 设 关系 + 正 
好 等 于 下 列 元 组 : 

( 1, 2, 3 ) 

( 1, 2, UNK ) 

( UNK, UNK, UNK ) 

为 了 简单 起 见 ， 假 定 上 述 从 左 到 右 的 三 个 属性 分 别 叫做 4、B 和 C; 而 每 一 个 属性 都 是 IN- 
TEGER 类 型 。 于 是 下 面 的 表达 式 及 其 值 如 下 所 示 : 


EXISTS V V.C>1) : true 


( 
EXISTS V ( V.B > 2 ) : unk 
EXISTS V ( MAYBE ( V.A>3)) : true 
EXISTS V ( IS UNK ( V.C ) ) : 
( 
( 
( 


FORALL V 
FORALL V 
FORALL V 


3. 其 他 标量 操作 符 

考虑 下 面 数字 表达 式 

WEIGHT * 454 

其 中 WEIGHT 表示 某 些 零件 (比如 P7) 的 重量 。 如 果 零 件 P7 的 重量 是 UNK 会 怎么 样 ? 这 


个 表达 式 的 值 会 是 什么 ? 答案 是 它 必须 为 UNK。 通 常 ， 对 于 任何 数字 表达 式 ， 只 要 其 中 任何 一 
个 操作 数 本 身 是 UNK， 那 么 这 个 数字 表达 式 就 等 于 .UNK。 例 如 ， 如 果 WEIGHT 恰好 是 UNK， 
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那么 所 有 的 下 列表 达 式 也 都 等 于 UNK， 


WEIGHT + 454 454 + WEIGHT + WEIGHT 

WEIGHT - 454 454 - WEIGHT - WEIGHT 

WEIGHT * 454 454 * WEIGHT 

WEIGHT / 454 454 / WEIGHT 

注意 ; 这 里 应 当 指 出 ， 按 照 上 述 对 数字 表达 式 的 处 理 方式 会 造成 某 些 异 常 。 比 如 ， 束 达 区 
WEIGHT - WEIGHT 应 当 等 于 零 ， 但 其 实 等 于 UNK。 再 如 表达 式 WEIGHT《0 应 当 会 产生 一 
“ 除 零 ” 错 误 ， 但 结果 也 是 UNK ( 当然 首先 假定 在 上 述 两 种 情况 里 的 WEIGHT 是 UNK ) 。 区 
未 进一步 给 出 说 明之 前 ， 我 们 先 忽 略 这 些 异 常 。 

所 有 其 他 标量 类 型 (scalar type) 和 操作 符 也 会 出 现 类 似 的 问题 ， 但 以 下 情况 例外 : a) 布尔 
操作 符 〈 参 见 前 两 小 节 ) ; b) 之 前 讨论 过 的 操作 符 IS_UNK; c) 下 面 要 讨论 的 操作 符 IF_UNK。 
比如 ， 如 果 4 是 UNK 或 8 是 UNK 或 两 者 都 是 UNK， 则 字符 串 表 达 式 4 上 8 返回 UNK (同样 ， 
这 里 也 会 有 某 些 异常 情况 ， 在 此 略 去 了 这 些 情况 的 细节 。) 

IF_UNK 操作 符 在 两 个 标量 表达 式 操 作 数 上 进行 操作 。 如 果 第 一 个 操作 数 不 等 于 UNK， 那 
么 它 返回 第 一 个 操作 数 的 值 ; 否则 返回 第 二 个 操作 数 的 值 ( 换 句 话说， 这 个 操作 符 提供 了 一 种 
有 效 的 途径 ， 它 把 一 个 UNK 转换 为 某 些 非 UNK 值 ) 。 比 如 ， 供 应 商 的 CITY 属性 允许 是 UNK。 
于 是 表达 式 


EXTEND S ADD IF_UNK ( CITY, 'City unknown'，) AS SCITY 


产生 这 样 的 结果 : 如 果 S 中 的 供应 商 的 CITY 属性 是 UNK， 那 么 这 个 供应 商 的 SCITY 属性 的 值 
是 City unknown。 
注意 ， 顺 便 提 一 句 ，IF_UNK 可 以 用 IS_UNK 来 定义 。 清 楚 起 见 ， 表 达 式 


IF UNK ( expl, exp2 ) 


(这 里 表达 式 expl 和 exp2 必须 是 相同 的 类 型 ) 和 下 面 的 表达 式 等 价 


IF IS_UNK ( expl ) THEN exp2 ELSE expl END IF 


4. UNK 不 是 unk 

理解 UNK (“未 知 值 ”的 空 值 ) 和 unk (unknown 真 值 ) 不 是 同一 回 事 很 重要 2 。 其 实 ， 这 
种 情况 是 基于 这 样 的 事实 : unk 是 一 个 值 (精确 地 说 是 一 个 真 值 ) ， 而 UNK 根本 不 是 一 个 值 。 现 
让 我 们 进一步 解释 清楚 一 点 。 假 设 X 是 一 个 BOOLEAN 类 型 的 变量 。 于 是 XX 一 定 有 true、false 或 
unk 三 者 中 的 一 个 值 。 这 样 ， 语 句 “X 是 unk” 精 确 的 意思 是 已 知 X 的 值 是 unk。 相 对 而 言 ， 语 
句 “X 是 UNK” 的 意思 是 X 的 值 不 知道 。 

5. 一 个 类 型 可 以 包含 一 个 UNK 吗 

UNK 不 属于 任何 一 个 类 型 (类 型 是 值 的 集合 ) ， 因 为 事实 上 UNK 不 是 值 。 其 实 ， 如 果 一 个 
类 型 可 以 包含 一 个 UNK， 那 么 对 这 个 类 型 的 类 型 约束 检查 就 从 来 都 不 会 失败 ! 然而 ， 既 然 类 型 
事实 上 不 能 包含 UNK， 那 么 一 个 包含 UNK (不 管 它 是 什么 ) 的 “关系 ”其 实 根 本 不 是 一 个 关 
系 , 不 管 根据 在 第 6 章 给 出 的 定义 还 是 Codd 在 参考 文献 [6.1] 中 给 出 的 原始 定义 来 判断 都 如 
此 。 我 们 稍 后 会 讲述 这 个 重要 的 观点 。® 

6. 关系 操作 符 

现在 把 注意 力 转向 UNK 对 关系 代数 操作 符 的 影响 。 为 了 简单 起 见 ， 我 们 只 讨论 乘积 、 选 
择 、 投 影 、 并 和 差 (UNK 对 其 他 操作 符 的 影响 可 以 依据 UNK 在 这 五 个 操作 符 上 的 影响 来 确 
定 )。 

首先 ， 乖 积 操作 不 受 影响 。 





加 然而 SQL 认为 它们 是 同一 回 事 ( 见 19.7 节 )。 
加 ”本 段 原文 都 将 type 翻译 成 域 ， 可 能 有 误 ， 本 段 中 将 type 翻译 成 类 型 。 一 一 译 者 注 
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第 二 ， 重 新 定义 〈 稍 微 改 动 ) 选择 操作 ， 以 返回 只 包含 在 选择 条 件 上 为 tme 的 元 组 的 关系 ， 
即 选 择 条 件 对 这 些 元 组 的 值 不 是 false， 也 不 是 unk。 注 意 : 前 面 我 们 已 在 “布尔 表达 式 ” 小 节 中 
的 MAYBE 例子 里 隐 含 地 假定 了 这 个 重 定义 。 

接 下 来 是 投影 。 投 影 操作 当然 包括 对 重复 元 组 的 删除 。 在 传统 的 两 值 迎 辑 (2VL) 中 ， 两 个 
元 组 由 和 乙 完全 相同 ， 当 且 仅 当 两 者 实际 上 是 相同 的 元 组 一 一 也 就 是 说 ， 当 且 仅 当 它 们 有 相同 
的 属性 A1，A2，…，An， 对 所 有 的 i (i=1, 2,，…, n), 元 组 1 中 有 hi 的 值 等 于 元 组 2 中 有 hi 的 
值 。 然 而 ,在 3VL 中 某 些 属性 的 值 可 能 是 UNK， 而 UNK (我 们 已 经 知道 ) 和 任何 东西 都 不 相 
等 ， 甚 至 和 它 自己 也 不 相等 。 那 么 我 们 是 否 要 作出 结论 ， 一 个 包含 UNK 的 元 组 永远 不 与 任何 元 
组 相等 ， 甚 至 与 它 本 身 也 不 相等 ? 

按照 Codd 的 说 法 ， 这 个 问题 的 答案 是 否定 的 : 两 个 UNK， 甚 至 它们 互 不 相等 ， 也 被 认为 其 
中 一 个 是 另 一 个 的 副本 ， 这 样 做 的 目的 是 为 了 删除 重复 元 组 [14.7]。? 下 面 是 为 这 样 明 显 的 巴 
盾 进行 的 辩护 : 

[等 同性 判定 ] 删除 重复 元 组 所 进行 的 等 同性 判定 ,与 检索 条 件 中 进行 的 等 同性 判定 相 比 ， 在 内 容 的 
考虑 上 不 那么 细致 。 因 此 ， 可 以 采用 不 同 的 规则 。 

这 个 基本 结论 是 否 有 理 留 给 大 家 去 判断 。 不 过 现在 让 我 们 先 接受 它 ， 于 是 有 下 面 的 定义 : 

m 两 个 元 组 1、 人 2 是 相同 的 当 且 仅 当 它们 有 相同 的 属性 41 ，42，-…，An， 对 所 有 的 i (i = 

1，2，…，7m) ， 要 么 元 组 1 中 Ai 的 值 等 于 元 组 人 2 中 Ahi 的 值 ， 要么 元 组 11 中 有 Ahi 的 值 与 元 
组 及 中 有 4i 的 值 均 为 UNK。 
有 了 这 扩展 的 “相同 元 组 ”定义 ， 原先 的 投影 定义 可 不 加 修改 便 可 适用 。 但 是 注意 ,下面 


两 个 等 式 是 等 价 的 ; 
a 11=2 
us 1 与 人 2 是 重复 的 


并 同样 要 删除 多 余 的 重复 元 组 ， 相 同 元 组 定义 同样 适用 于 这 里 。 于 是 ， 我 们 定义 关系 rl 和 
六 (具有 相同 的 类 型 ) 并 成 关系 + (同样 具有 相同 类 型 )， 关 系 r 包含 所 有 这 样 的 元 组 ?: 即 t 是 
rl 的 某 个 元 组 的 副本 或 2 的 某 个 元 组 的 副本 或 是 两 者 中 某 个 元 组 的 共同 副本 。 

最 后 ， 差 也 类 似 地 重新 加 以 定义 ， 尽 管 它 不 包括 任何 副本 删除 。 即 一 个 元 组 上: 出 现在 rl MI- 
NUS 2 里 ， 当 且 仅 当 它 是 1 中 某 些 元 组 的 副本 而 不 是 迪 中 元 组 的 副本 (至 于 交 ， 虽 然 并 不 允 
许 但 是 为 了 完善 我 们 的 认识 也 可 以 做 同样 的 重新 定义 : 即 一 个 元 组 出 现在 INTERSECT 妈 里 ， 
当 且 仅 当 它 同 时 是 rl 的 某 个 元 组 和 冯 的 某 个 元 组 的 副本 ) 。 

7. 更 新 操作 

对 此 操作 有 两 个 一 般 性 的 问题 值得 注意 : 

1) 如 果 关 系 R 的 属性 4 允许 用 UNK， 并 且 如 果 通 过 INSERT 在 R 中 插入 一 个 在 属性 4 上 没 
提供 值 的 元 组 ， 则 系统 会 自动 在 这 个 元 组 的 属性 4 位 置 上 放置 UNK。( 当然 ， 在 这 两 种 情况 里 都 
没有 定义 4 的 默认 值 是 非 UNK。) 如 果 关 系 R 的 属性 4 不 允许 UNK， 则 试图 通过 INSERT 或 UP- 
DATE 把 在 4 位 置 上 是 UNK 的 元 组 播 和 人 只 里 是 错误 的 。 

2) 和 往常 一 样 ， 试 图 通过 INSERT 或 UPDATE 在 R 里 创建 一 个 相同 元 组 是 错误 的 。 这 里 
“相同 元 组 ”的 定义 和 上 面 是 一 样 的 。 

8. 完整 性 约束 

正 像 第 9 章 所 解释 的 ， 一 个 完整 性 约束 本 质 上 是 一 个 结果 不 等 于 false 的 布尔 表达 式 。 因 此 ， 
如 果 一 个 约束 的 值 等 于 unk， 则 不 认为 它 是 违反 约束 的 (其 实 ， 在 本 节 先 前 部 分 关于 类 型 约束 已 
经 隐 含 地 论述 了 许多 这 方面 的 内 容 ) 。 从 技术 上 讲 ， 在 这 种 情况 下 我 们 应 当 说 它 是 否 违反 约束 是 
未 知 的 ， 但 是 ， 就 像 在 WHERE 子 句 中 把 unk 当 作 false 一 样 ， 为 了 完整 性 约束 我 们 把 unk 认为 是 





[14.7] 是 Codd 的 第 一 篇 讨论 信息 空缺 问题 的 论文 (虽然 这 个 问题 不 是 这 篇 论文 的 主要 论点 ， 购 第 14 章 )。 在 
其 他 方面 、 这 篇 论文 提出 了 8-join、8-select 和 除 操作 符 ( 见 练习 19.4) 的 maybe 方案 ,以 及 并 、 交 、 差 、8-join 
和 有 自然 连接 操作 符 〈 见 19.5 节 ) 的 “out” 方 案 。 
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true (比较 不 严格 的 说 法 ) 。 
19. 3 上述 方案 所 造成 的 某 些 结果 


上 一 节 所 论述 的 3VL 方法 会 产生 一 些 逻辑 结果 ,但 并 不 是 所 有 的 结果 都 很 明显 。 我 们 在 这 
一 节 里 讨论 其 中 一 些 结果 以 及 它们 的 重要 性 。 

1. 表达 式 转换 

首先 ， 我 们 注意 到 ， 在 2VL 中 的 值 是 tmue 的 一 些 表达 式 在 3VL 中 就 不 一 定 总 是 tue 了。 这 
里 举 几 个 例子 ， 并 加 以 说 明 。 请 注意 ， 所 举 的 例子 是 不 可 能 穷尽 所 有 情况 的 。 

m 比较 式 x=x 不 会 必然 得 出 true 

在 2VL 里 ,任何 值 x 总 是 和 它 自己 相等 ,但 在 3VL 里 ,x 如 果 是 UNK， 那 么 它 就 不 等 于 
它 自 己 。 
布尔 表达 式 p OR NOT (p) 不 会 必然 得 出 tmue。 
在 2VL 里 ,不管 p 为 什么 布尔 表达 式 ， 表 达 式 p OR NOT (p) 必然 会 等 于 true。 但 在 3VL 里 ， 
如 果 p 的 值 是 unk， 则 整个 表达 式 的 值 是 unk OR NOT (unk) ， 即 unk OR unk， 简 化 为 unk， 而 不 
是 true。 这 个 特殊 的 例子 说 明了 3VL 有 反 直 觉 的 特性 ， 这 个 特性 举例 说 明 如 下 : 如 果 我 们 发 出 
“ 求 出 在 伦敦 的 所 有 供应 商 ” 的 查询 ， 接 着 发 出 “ 求 出 不 在 伦敦 的 所 有 供应 商 ” 的 查询 ， 然 后 对 
这 两 个 结果 做 并 ， 则 我 们 不 会 必然 获得 所 有 的 供应 商 。 这 其 中 可 能 漏 掉 了 “所 有 可 能 在 伦敦 供 
应 商 ” 的 结果 (也 就 是 说 ,在 3VL 方法 中 表达 式 p OR NOT (p) OR MAYBE (p) 恒 真 ， 与 
2VL 方法 中 的 表达 式 p OR NOT (P) 类 似 )。 
有 必要 对 之 前 的 例子 做 进一步 的 验证 。 这 个 例子 的 要 点 ， 当 然 是 “城市 是 伦敦 ”和 “城市 
不 是 伦敦 ”这 两 种 情况 在 现实 世界 中 是 互 斥 的 、 并 穷尽 现实 世界 的 所 有 可 能 ， 而 数据 库 并 不 包 
含 现实 世界 一 一 其 实 ， 它 仅仅 包含 它 对 现实 世界 的 认 知 。 关 于 对 现实 世界 的 认 知 存在 三 种 情况 ， 
而 不 是 两 种 ; 在 这 个 例子 里 这 三 种 情况 是 “被 知道 是 伦敦 的 城市 ”、“ 被 知道 不 是 伦敦 的 城市 ” 
和 “不 被 知道 的 城市 ”"。 当 然 ( 如 [19.6] 所 说 的 ) ， 我 们 显然 不 能 问 系统 关于 现实 世界 的 问题 ， 
而 只 能 问 系 统 它 所 知道 的 用 数据 库 中 数据 表达 出 来 的 关于 现实 世界 的 问题 。 这 样 ， 对 范畴 的 混 清 
产生 了 这 个 例子 的 反 直 觉 特性 : 用 户 是 根据 现实 世界 这 个 范畴 来 思考 的 ， 而 系统 是 根据 它 对 现实 
世界 的 认 知 来 操作 的 。( 但 对 本 文 作者 来 讲 ， 这 样 的 范畴 混淆 是 一 个 非常 容易 掉 进 去 的 陷阱 。 注 
意 ， 在 这 本 书 前 面 章节 中 的 每 一 个 单一 查询 (在 示例 、 练 习 中 ) 是 按照 “现实 世界 ”而 不 是 按 
照 “ 对 现实 世界 的 认 知 ”表达 的 。 当 然 这 本 书 在 这 方面 也 不 会 特殊 。) 
表达 式 > JOIN > 不 会 必然 给 出 
在 2VL 里 ， 一 个 关系 上 和 它 自己 进行 连接 总 能 得 出 原先 的 关系 + ( 即 连接 是 攻 等 的 ) 。 然 
而 在 3VL 里 ,一 个 任何 一 个 位 置 是 UNK 的 元 组 不 能 和 它 自 己 做 连接 ， 因 为 (根据 参考 文 
献 [14.7]) 不 像 联 合 ， 连 接 是 基于 “检索 类 型 ” (retrieval-type) 的 相等 性 判定 ， 而 不 是 
“重复 类 型 ”的 相等 性 判定 。 
上 交 不 再 是 连接 的 特殊 情况 。 
这 个 事实 同样 来 自 于 连接 是 基于 检索 类 型 的 相等 性 判定 而 交 是 基于 重复 类 型 的 相等 性 判定 
所 造成 的 结果 。 

A=B 和 B=C 两 个 式 子 不 能 推出 4 = (C。 
关于 这 个 论点 的 进一步 说 明 在 下 面 的 “部 门 和 雇员 的 示例 ”小 节 里 给 出 。 

总 之 ,许多 在 2VL 中 有 效 的 恒等式 在 3VL 中 不 再 有 效 。 这 种 情况 造成 一 个 如 下 的 严重 后 果 。 
通常 ， 简 单 的 恒等式 如 r JOIN r=r 是 各 种 各 样 变换 规则 的 基础 ， 而 这 些 规 则 用 来 把 查询 转化 成 
某 些 更 有 效 的 形式 ， 如 第 18 章 所 介绍 的 。 甚 至 不 仅 系统 使 用 这 些 规则 ( 当做 优化 的 时 候 ) ， 用 
户 也 使 用 这 些 规则 ( 当 试图 决定 “更 好 ”地 描述 某 个 查询 的 时 候 ) 。 如 果 恒 等 式 不 再 有 效 ， 那 么 
规则 也 会 失效 。 如 果 规 则 失效 ， 那 么 变换 也 不 再 有 效 。 如 果 变 换 无 效 ， 那 么 我 们 将 会 从 系统 那里 
得 到 错误 的 答案 。 

2. 部 门 和 雇员 的 例子 

为 了 阐明 不 正确 变换 问题 ， 我 们 来 稍微 详细 地 讨论 一 个 特殊 的 例子 (这 个 例子 来 自 参 考 文 
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献 [19.9]; 这 里 使 用 了 关系 演算 而 不 是 关系 代数 ， 但 这 并 不 是 很 重要 ) 。 假 设 给 定 一 个 简单 的 
数据 库 ， 包 含 部 门 和 雇员 ， 见 图 19-1。 考 虑 下 面 的 表达 式 


DEPT.DEPT# = EMP.DEPT# AND EMP.DEPT# = DEPT# ('D1') 


(当然 这 可 能 是 一 个 查询 的 一 部 分 ); 这 里 DEPT 和 EMP 隧 [posspzT 

指 范围 变量 。 对 于 数据 库 里 单一 的 元 组 ， 这 个 表达 式 等 于 | | 时 
unk AND unk， 即 wk。 然 而， 一 个 “好 的 ”优化 器 会 注意 

到 这 个 表达 式 形式 是 a =b AND b =c， 于 是 它 会 推出 a=c， 图 19-1 部 门 - 雇 员 数 据 库 
并 会 在 原先 的 表达 式 后 边 加 上 限制 条 件 a。=c (如 在 第 18 章 18.4 节 里 讨论 的 ) ， 这 样 得 到 


DEPT.DEPT# = EMP.DEPT# AND EMP.DEPT# = DEPT# ('D1') 
AND DEPT.DEPT# = DEPT# ('D1') 
这 个 修改 过 的 表达 式 等 于 unk AND unk AND false (对 于 数据 库 仅 有 的 两 个 元 组 来 说 ) 。 于 
是 ,下 面 的 查询 (举例 ) 


BMP .EMP# WHERE EXISTS DEPT ( NOT 
{ DEPT.DEPT# = EMP.DEPT# AND EMP.DEPT# = DEPT# ('D1') ) ) 


如 果 按 上 述 的 理解 进行 “优化 ”， 将 返回 雇员 El1。 换 名 话说， 这 样 的 “优化 ”其 实 是 不 正 
确 的 。 这 样 我 们 就 知道 了 某 些 在 2VL 中 是 正确 且 有 用 的 优化 在 3VL 中 不 再 正确 。 

注意 那些 为 了 把 2VL 系统 扩展 到 支持 3VL 系统 而 造成 的 潜在 影响 。 最 好 的 情况 是 这 样 的 扩展 
很 可 能 需要 对 现 有 的 系统 进行 重 设计 ; 最 坏 的 情况 是 这 样 会 导致 错误 。 更 普遍 的 是 ， 要 注意 那些 把 
支持 n 值 逻辑 的 系统 扩展 到 支持 (n+1) 值 逻辑 的 系统 的 滞 在 影响 ， 这 里 半 是 任何 一 个 大 于 ! 的 
数 ; 对 于 每 一 个 离散 值 n 都 会 产生 类 似 难题 。 

3. 解释 方法 

现在 , 更 进一步 地 来 研究 部 门 - 雇员 这 个 例子 。 既 然 雇员 El 在 现实 世界 里 没有 某 个 对 应 的 
部 门 ， 那 么 让 UNK 代表 某 个 真实 值 ， 比 如 是 d。 现在 4 或 是 D1 或 不 是 。 如 果 它 是 ， 那 么 原先 的 
表达 式 


DEPT.DEPT# = EMP.DEPT# AND EMP.DEPT# = DEPT# ('D1°) 


等 于 (对 于 上 述 特定 的 值 来 说 ) false， 因 为 第 一 项 等 于 false。 另 一 方面 ， 如 果 d 不 是 D1， 
则 这 个 表达 式 还 是 等 于 (对 于 上 述 特定 的 值 来 说 ) false， 因 为 第 二 项 等 于 false。 换 句 话说 ， 原 
先 的 表达 式 在 现实 世界 里 总 是 等 于 false， 不管 UNK 代表 什么 真实 值 。 这 样 ， 在 3VL 里 是 正确 的 
结果 和 在 现实 世界 是 正确 的 结果 不 是 同样 的 事情 ! 换 句 话 说 ， 三 值 馆 辑 的 方法 和 现实 世界 是 不 一 
致 的 ， 即 ，3VL 看 起 来 没有 一 种 符合 现实 世界 本 身 规 律 的 解释 方法 。 

注意 : 这 个 解释 问题 远 远 不 是 由 空 值 和 3VL 所 造成 的 仅 有 的 一 个 问题 (关于 其 他 问题 的 进 


一 步 讨论 请 见 [19. 1 ~19.11])。 它 甚至 不 是 最 基本 的 〈 见 下 面 讨 论 ) 。 然 而 ， 它 也 许 是 其 中 最 
具有 实际 意义 的 一 个 ; 其 实 ， 以 作者 观点 来 看 ， 这 只 是 一 幕 精彩 的 表演 。 
4. 再 论 谓词 


假定 关系 EMP 仅仅 含有 两 个 元 组 ，(E2，D2) 和 (8B1L，UNK) 。 第 一 个 对 应 于 这 样 的 叙述 
“有 一 个 标识 为 52、 且 在 标识 为 D2 的 部 门 里 的 雇员 ”。 第 二 个 对 应 于 这 样 的 叙述 “有 一 个 标识 
为 B1 的 雇员 ” (回忆 一 下 ， 说 一 个 元 组 “含有 一 个 UNK” 其 实 真正 地 是 说 这 个 元 组 在 这 个 可 应 
用 的 位 置 上 根本 没有 任何 东西 ; 这样， 元 组 (El1，UNK) 一 一 如 果 它 是 元 组 的 话 ， 本 质 上 这 是 
一 个 可 能 有 问题 的 概念 一 一 应 当 被 认为 仅仅 是 (E1) 的 形式 ) 。 换 名 话说 ， 这 两 个 元 组 是 两 个 不 
同 谓词 的 事例 ， 且 这 个 “关系 ”根本 不 是 一 个 关系 ， 而 是 (不 精确 地 说 ) 两 个 有 不 同 标题 的 不 
同 关 系 的 并 。 

也 许 有 人 会 提出 上 述 情况 可 以 通过 一 个 谓词 来 解决 ， 这 个 谓词 含有 一 个 OR。 可 能 情况 
如 下 : 

有 一 个 标识 为 E#、 且 在 标识 为 D# 的 部 门 里 的 雇员 OR 有 一 个 标识 为 B# 的 雇员 。 
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然而 ， 幸 亏 封 闭 世 界 假设 〈the Closed World Assumption) ， 使 得 这 个 关系 中 所 有 的 雇员 Ei 都 
必须 包含 一 个 (Ei，UNK) 形式 的 元 组 ! 如 果 使 这 种 拯救 意图 普遍 化 到 几 个 “属性 ”都 “含有 
UNK” 的 “关系 ”上 ， 那 几乎 太 可 怕 了 (在 任何 情况 下 ， 有 这 样 结果 的 “关系 ”将 仍然 不 是 一 
个 关系 一 一 见 下 一 段 )。 

用 另 一 种 方法 来 考虑 上 述 问 题 ， 如 果 一 个 给 定 关系 的 一 个 给 定 元 组 的 一 个 给 定 属性 的 值 是 
“UNK”， 于 是 (重复 一 下 ) 这 个 属性 其 实 根本 没有 包含 任何 东西 …… 于 是 可 推出 这 个 “属性 ” 
不 是 一 个 属性 ， 这 个 “元 组 ”不 是 一 个 元 组 ， 这 个 “关系 ”不 是 一 个 关系 ， 且 我 们 正在 做 的 
(不 论 它 是 其 他 什么 东西 ) 基础 不 再 是 数学 上 的 关系 理论 。 换 名 话说 ，UNK 和 3VL 破坏 了 关系 
模型 的 整个 基础 。 


19.4 ” 空 值 和 码 


注意 ; 我 们 现在 放下 术语 UNK (在 大 部 分 段落 中 ) ， 回 到 更 传统 的 术语 “ 空 值 ”(null) 上 ， 
这 是 由 于 有 历史 原因 。 

除了 前 面 几 节 的 内 容 涉及 UNK， 事 实 是 现在 大 部 分 产品 都 支持 空 值 和 3VL。 这 样 的 支持 对 
于 码 来 说 尤其 有 重要 的 潜在 影响 。 因 此 在 这 一 节 里 ， 将 简要 地 研究 一 下 这 些 潜在 的 影响 。 

1. 主 码 

正如 在 第 9. 10 节 里 所 介绍 的 ， 关 系 模型 在 历史 上 要 求 ( 至 少 对 于 基 变 量 是 如 此 的 ) 选 出 一 
个 候选 码 来 作为 关系 的 主 码 。 剩 下 的 候选 码 (如果 有 的 话 ) ， 被 称 为 可 选 码 (altemate key) 。 于 
是 ， 除 了 主 码 概念 外 ， 关 系 模型 在 历史 上 曾 包括 下 面 的 “元 约束 ”( metaconstraint) 或 规则 ( 实 
体 完整 性 规则 ) : 

a 实体 完整 性 ， 基 变量 的 主 码 的 任何 部 分 都 不 能 为 空 值 。 

这 个 规则 的 理论 基础 来 自 于 这 样 的 解释 :a) 基本 关系 中 的 元 组 表示 现实 世界 的 实体 ; b) 
现实 世界 中 的 实体 是 用 定义 标识 的 ; c) 因此 这 些 实体 在 数据 库 中 的 副本 也 必须 被 标识 ; d) 在 
数据 库 中 主 码 的 值 是 被 用 来 作 这 些 标识 的 ; e) 因此 主 码 值 一 定 不 能 “空缺 ”。 这 样 就 产生 了 下 
述 要 点 ; 

1) 首先 ， 人 们 经 常会 认为 实体 完整 性 规则 就 是 指 “ 主 码 值 必 须 是 唯一 的 "， 但 其 实 并 不 这 
样 。( 当然 主 码 值 必须 唯一 是 正确 的 ， 但 这 个 要 求 本 身 蕴涵 在 主 码 的 基本 定义 里 。) 

2) 其 次 ， 注 意 这 条 规则 仅 适 用 于 主 码 ， 可 选 码 显然 允许 有 空 值 。 但 如 果 AK (可 选 码 ) 是 
一 个 允许 有 空 值 的 可 选 码 ， 由 于 实体 完整 性 规则 ， 则 不 能 选择 AK 做 为 主 码 ， 这 样 一 来 ， 首 先 在 
哪 种 意义 上 AK 还 是 一 个 “候选 ” 码 ? 另 一 种 角度 看 ， 如 果 我 们 不 得 不 说 可 选 码 也 不 能 有 空 值 ， 
则 完整 性 规则 适用 于 所 有 的 候选 码 ， 而 不 仅仅 是 主 码 。 从 两 种 角度 看 ， 所 述 规则 似乎 存在 一 些 
错误 。 

3) 最 后 ， 注 意 实体 完整 性 规则 仅 适用 于 基本 关系 变量 ; 其 他 关系 变量 显然 可 以 有 允许 是 空 
值 的 主 码 。 举 一 个 简单 的 例子 ， 考 虑 关系 变量 R 在 任 一 允许 有 空 值 的 属性 4 上 做 投影 。 显 然 这 
规则 违背 了 交换 性 原则 (关于 基本 关系 变量 和 导出 关系 变量 ) 。 我 们 认为 ， 这 是 拒绝 这 个 规则 的 
根本 理由 ， 即 使 它 不 涉及 空 值 ， 也 要 拒绝 这 个 规则 。 

现在 ， 假 设 采用 丢弃 空 值 的 观点 ， 取 而 代 
之 用 特殊 入 来 表示 空缺 的 信息 (其 实 正 像 在 |sDRVEY[BIRTRYEAR JAVGSAL [mAxsAL MINSAL 
现实 世界 里 所 做 的 一 一 稍 后 见 19.6 节 ) 。 那 么 
也 许可 以 保留 一 个 被 修改 过 的 实体 完整 性 规则 
作为 指导 法 则 :“ 任 何 基 变 量 的 主 码 的 任何 部 分 
都 不 准 接受 这 样 的 特殊 值 "， 而 不 是 作为 一 个 不 
可 违背 的 法 则 (如 许多 更 标准 化 的 思想 都 作为 
指导 ， 而 不 是 作为 不 可 违背 的 法 则 )。 图 19-2 图 19-2 基本 关系 变量 SURVEY (样本 值 ) 











@ 经 常 被 不 恰当 地 称 作 上 默认 值 [19. 12] 。 
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你 





给 了 一 个 关于 基本 关系 变量 叫 SURVEY 的 示例 可 能 会 违背 一 些 指导 思想 ; 它 表 本 一 个 工资 调 租 
的 结果 ， 用 来 显示 某 一 人 群 样本 按照 出 生年 份 的 平均 、 最 大 和 最 小 工资 (BIRTHYEAR 是 主 码 ) 。 
BIRTHYEAR 值 为 “????” 的 元 组 表示 填 表 时 没有 回答 “你 什么 时 候 出 生 ?” 这 一 问题 。 

2. 外 码 

青 次 考虑 图 19-1 的 部 门 和 雇员 数据 库 。 也 许 大 家 没有 注意 到 ， 图 中 关系 变量 EMP 的 属性 
DEPT# 是 -一 个 外 码 。 因 此 很 显然 参照 完整 性 规则 需要 一 些 改进 ， 因 为 现在 外 码 很 明显 必须 能 够 接 
受 空 值 ， 而 空 值 外 码 明 显然 违反 了 原先 在 第 9 章 所 述 的 规则 :” 

参照 完整 性 (最初 形式 ) : 数据 库 不 能 包含 任何 不 匹配 的 外 码 值 . 

其 实 ， 只 要 适当 地 扩展 术语 “不 匹配 的 外 码 值 ”的 定义 ,就 可 以 保持 所 述 的 规则 。 为 了 明 
确 起 见 ， 我 们 定义 在 某 些 参照 美 系 变量 中 一 个 不 匹配 的 外 码 值 是 一 个 非 空 的 外 但 值 ， 而 相关 的 被 
参照 的 关系 变 基 中 不 存在 这 个 外 码 值 的 相关 候选 码 的 匹配 值 。 由 此 产生 了 下 述 要 点 : 

1) 必须 把 是 人 放任 一 给 定 外 人 接受 受 空 值 详细 说 明 为 数据 库 定 义 的 一 部 分 ( 当然 ， 其 实 通 
常 这 也 适用 于 属性 ， 不 管 它们 是 否 是 某 个 外 码 的 一 部 分 ) 。 

2) 外 码 可 以 接受 2 值 的 可 能 性 会 导 至 男 一 个 参照 动作 的 可 能 性 ， 这 个 动作 是 SET NULL， 
它 或 许 会 在 一 个 外 码 的 DELETE 或 UPDATE 规则 中 详细 说 明 。 比 如 : 

VAR SP BASE RELATION { ... } 

FOREIGN KEY { S# } REFERENCES S 


ON DELETE SET NULL 
ON UPDATE SET NULL ; 


有 了 这 样 的 说 明 ， 一 个 在 供应 商 关系 变量 上 的 DELETE 操作 会 把 所 有 相 匹 配 的 供 货 中 的 外 码 设 
置 为 空 值 ， 然 后 删除 相应 的 供应 商 ;， 同样 ， 一 个 在 供应 商 关系 变 其 的 属性 S# 上 的 UPDATE 操作 
会 把 所 有 相 上 匹配 的 供 货 中 的 外 码 设置 为 空 值 ， 然 后 删除 相应 的 供应 商 。 注 意 : 当然 仅仅 对 首先 能 
接受 空 值 的 外 码 ，SET NULL 才 可 以 被 说 明 。 

3) 最 后 ,注意 到 适当 的 数据 库 设 计 可 以 避免 在 外 码 中 有 空 值 [19. 19]. 比如， 再 一 次 考虑 
部 门 和 雇员 。 如 果真 的 有 可 能 不 知道 某 些 雇员 的 部 门 号 ， 那么 《如 上 节 接 近 结 尾 所 述 的 ) 更 好 
的 方法 是 根本 不 要 在 EMP 关系 变量 里 包括 DEPT#， 而 要 一 个 单独 的 关系 变量 ED (比方 说 ) ， 这 
个 关系 变量 的 属性 是 EMP# 和 DEPT#， 表 示 一 个 指定 的 雇员 在 一 个 指定 的 部 门 这 样 的 事实 。 于 
是 ， 某 个 雇员 有 一 个 不 知道 的 部 门 的 事实 可 以 用 从 关系 变量 ED 中 删除 这 个 雇员 元 组 来 表示 。 


19.5 外 连接 


在 这 一 节 里 ， 我 们 将 简要 讨论 一 下 外 连接 操作 ( 见 [19.3, 19.4]、[19.7] 和 [19.14~ 
19. 16] ) 、 外 连接 是 常规 连接 或 内 连接 操作 的 一 种 扩展 形式 。 它 不 同 于 内 连接 的 是 ,车 一 个 关系 
中 的 元 组 在 男 ~- 个 关系 中 没有 相 匹 配 的 元 组 ， 则 这 些 元 组 会 在 结果 中 出 现 ， 并 伯 男 -- 个 关系 的 其 
他 属性 位 置 放 上 空 值 ， 而 不 是 像 通 常 那样 被 忽略 。 它 不 是 一 个 基本 操作 。 比 如 ， 下 述 表达 式 被 用 
来 构造 供应 商 和 供 货 关系 在 供应 商号 码 上 的 外 连接 。 (在 这 里 假设 “NULL” 是 一 个 合法 的 标量 
表达 式 ) : 


( S$ JOIN SP ) 
UNION 

( EXTEND ( (S { S# } MINUS SP { S# } ) JOIN S ) 
ADD ( NULL AS P#, NULL AS QTY ) ) 


这 个 表达 式 的 结果 包括 没有 供应 零件 的 供应 商 元 组 ， 并 扩展 地 在 P# 和 QTY 位 置 上 放置 
空 值 。 

更 仔细 -一 点 来 研究 这 个 示例 。 人 参考 图 19-3。 在 这 个 图 中 ， 上 面部 分 表示 一 些 样本 值 ， 中 间 
部 分 表示 相应 的 内 连接 ， 而 下 面部 分 表示 相应 的 外 连接 。 如 这 个 图 所 示 ， 内 连接 在 没有 供应 零件 
的 供应 商 那 里 (在 本 例 中 是 供应 商 S3) “空缺 了 信息 ” (不 精确 地 讲 ) ， 然 而 外 连接 “保留 ”了 


mr 


全 地 使 在 相关 的 参照 关系 变 基 【其 相 关 的 僻 选 码 为 室 ) 中 有 这 样 的 元 组 ， 空 值 也 起 违反 这 一 规则 ， 


这 样 的 信息 。 其 实 ， 
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这 个 区 别 就 是 外 连接 的 要 点 所 在 。 








SNAME 


sr [Br on | 





Jones 
Adams | 


S52 
S5 


| STATUS 


30 


CITY 
Paris 
Athens 





S2 | Pl 300 
S2 | P2 400 





Regular (in 


ner) join: 

















TF 
S# SNAME STATUS CIrY P# QTY "Loses" 
S2 | Jones 10 | Paris Pl 300 | information for 
S52 Jones 10 Paris P2 400 supplier S5 








Outer join: 


S# 





SNAME | STATUS | CITY P#¥ QTY 








"Preserves" 
$2 | Jones 10 | Paris Pl 300 information fo 
S2 | Jones 10 | Paris P2 400 。 
S5 | Adams 30 | athens | UNK | UNK | SuPPlier 85 





图 19-3 内 连接 和 外 连接 示例) 


外 连接 要 解决 的 问题 ( 即 内 连接 有 时 会 “空缺 信息 ”的 事实 ) 当然 是 一 个 很 重要 的 问题 。 
于 是 某 些 作者 提出 系统 应 当 提供 直接 的 、 清 楚 的 外 连接 支持 ， 而 不 是 要 求 用 户 通过 非常 复杂 的 陈 
述 来 获得 想 要 的 结果 。 尤 其 Codd 认为 外 连接 是 关系 模型 中 的 固有 部 分 ( 见 参考 文献 【6.2] )， 
然而 ， 我 们 不 认可 这 种 观点 ， 因 为 : 

1) 首先 ， 这 个 操作 包含 空 值 ， 而 我 们 有 许多 好 理由 反对 空 值 。 

2) 第 二 ， 外 连接 有 好 多 种 形式 一 一 左 、 右 和 完全 外 8 - 连接 ， 以 及 左 、 右 和 完全 外 自然 连 
接 。(“ 左 ”连接 保留 了 来 自 第 一 个 操作 数 的 信息 ,“ 右 ”连接 保留 了 来 自 第 二 个 操作 数 的 信息 ， 
而 “完全 ”连接 则 两 者 兼 有 ; 图 19-3 的 例子 是 一 个 左 连接 一 一 精确 地 说 是 左 外 自然 连接 。) 进 
一 步 讲 ， 这 里 不 存在 直接 的 方法 从 外 9 连接 导出 外 自然 连接 [19.7]。 因 此 ， 难 以 确定 究竟 哪 一 
种 外 连接 需要 明确 的 支持 。 

3) 其 次 ,图 19-3 的 例子 远 远 不 能 把 外 连接 问题 叙述 完整 。 其 实 正如 参考 文献 [19.7] 所 述 
的 ， 外 连接 具有 许多 有 害 的 特点 ， 这 些 特点 加 起 来 使 在 现 有 语言 (尤其 是 SQL) 加 上 外 连接 是 
困难 的 。 一 些 DBMS 试图 去 解决 这 个 问题 ,但 最 终 以 失败 告终 ( 即 它 们 被 这 些 有 害 的 特点 所 困 
扰 ) 。 关 于 这 个 论点 更 详细 的 论述 请 见 参 考 文献 【19.7] 。 

4) 最 后 ， 可 以 说 关系 值 属性 (relation-valued attribute) 提供 了 解决 这 个 问题 的 一 个 方法 ， 

一 个 不 包含 空 值 也 不 包含 外 连接 的 方法 ， 并 且 从 作者 的 观点 来 看 ， 该 方法 是 一 个 更 完美 的 解决 方 
法 。( 这 里 忽略 了 一 一 个 事实 ， 它 是 一 种 关系 的 方法 是 不 违背 关系 模型 的 。) 比如 给 定 如 图 19-3 上 
面部 分 的 样本 数据 值 ， 那 么 下 面 的 表达 式 


WITH ( S RENAME S# AS X ) A 
( EXTEND Y ADD ( SP WHERE 5 = X ) AS PQ ) RENRME X AS S# 


会 产生 如 图 19-4 所 示 的 结果 。 

在 图 19-4 中 ,尤其 要 注意 供应 商 S5 所 
提供 的 零件 空 集 是 用 一 个 空 集 表示 出 来 的 ， 
而 不 是 ( 像 图 19- 3) 使 用 一 些 古 怪 的 
“null”。 用 一 个 空 集 表示 一 个 空 集 不 失 为 一 
个 好 主意 。 其 实 ， 如 果 适 当地 支持 关系 值 属 
性 ， 那 么 就 根本 没有 必要 使 用 外 连接 。 

再 来 讨论 一 下 这 个 论点 : 怎样 来 解释 出 
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图 19-4 保留 供应 商 S5 的 信息 (一 种 更 好 的 方法 ) 
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现在 外 连接 结果 中 的 空 值 ?比如 它们 在 图 19-3 的 例子 中 意味 着 什么 ?它们 当然 既 不 意味 着 “un- 
known 值 "， 也 不 意味 着 “ 值 不 可 应 用 ” ;其实 ， 能 给 出 任何 有 多 辑 性 的 唯一 精确 的 解释 是 “ 什 
是 空 集 "。 有 关 进 一 步 论述 请 见 参考 文献 [19.7]。 

在 结束 本 节 内 容 之 前 ， 我 们 要 指出 的 是 ， 关 系 代数 的 其 他 操作 也 可 以 定义 类 似 “ 外 ”连接 
的 形式 〈 尤 其 是 并 、 交 和 差 操作 [14.7] ) 并 且 Codd 认为 至 少 其 中 一 个 即 外 并 应 是 关系 模型 的 
一 部 分 ( 见 参 考 文献 [6.2]) 。 这 样 的 操作 人 允许 并 〈 及 其 他 操作 ) 在 两 个 甚至 是 不 同类 型 的 关系 
上 进行 操作 ;它们 使 每 个 操作 数 都 包括 对 它 来 说 是 古怪 的 属性 〈 这 样 ， 这 两 个 操作 数 现在 就 成 
为 相同 的 类 型 了 ) ， 并 在 这 些 增加 的 属性 上 放置 空 值 ， 然 后 变 成 普通 的 并 ， 交 或 差 ” 。 然 而 ， 册 
于 下 述 的 原因 我 们 不 打算 对 这 些 操作 进行 详细 的 论述 : 

。 外 交 操作 肯定 会 返回 一 个 空 的 关系 ， 除 非 原来 的 关系 具有 相同 的 类 型 ， 若 是 这 样 ， 就 退化 

为 普通 的 交 了 。 

。 外 差 操作 肯定 回 返回 它 的 第 一 个 操作 数 ， 除 非 原来 的 关系 具有 相同 的 类 型 ， 若 是 这 样 ， 就 

退化 为 普通 的 差 了 。 

。 外 并 操作 的 主要 的 问题 是 关于 解释 的 问题 〈 它 们 比 外 连接 所 造成 的 问题 更 精 糕 ) 。 关 于 进 

一 步 论述 请 见 参考 文献 [19.2]。 


19.6 特殊 值 


我 们 已 经 看 到 ， 空 值 破坏 了 关系 模型 。 但 值得 一 提 的 是 ， 没 有 空 值 的 关系 模型 已 经 很 好 地 使 
用 了 十 年 ! 一 一 模型 在 1969 年 第 一 次 被 定义 [6.1] ， 空 值 直 到 1979 年 才 被 加 进来 [14.7] 。 

因此 , 假设 ( 像 19.4 节 所 提议 的 ) 我 们 赞成 丢弃 空 值 的 整个 思想 ， 取 而 代 之 使 用 特殊 值 来 
表示 空缺 的 信息 。 注 意 ， 使 用 特殊 值 正 是 我 们 在 实际 工作 中 所 做 的 。 比 如 ， 在 实际 工作 里 ， 如 果 
因 某 些 原 因 不 知道 某 个 雇员 的 工作 时 间 ， 可 能 会 用 “?” 来 表示 这 个 值 ” 。 这 样 ， 当 没有 实际 值 
可 用 的 时 候 ， 通 常 的 方法 是 可 以 简单 地 使 用 一 个 与 这 个 属性 的 所 有 实际 值 不 同 的 特殊 值 。 注 意 ， 
特殊 值 必须 是 一 个 来 自 可 应 用 的 域 ， 因 此 在 “工作 时 间 ” 这 个 例子 里 ,属性 HOURS_WORKED 
的 类 型 不 仅仅 是 整 型 ， 而 应 当 是 整 型 加 上 特殊 值 。( 这 里 有 一 个 比较 好 的 类 推 .对 于 多 数 纸牌 游 
戏 来 说 ，TRUMPS 类 型 包含 五 个 值 ， 而 不 是 四 个 ， 分 别 是 一 一 “hearts”、“clubs” 、“ diamonds”、 
“spades” 以 及 “no tmumps”。 

这 里 首先 得 承认 上 述 方案 也 不 是 完美 的 ， 但 它 的 最 大 优点 在 于 它 不 会 破坏 关系 模型 的 逻辑 基 
础 。 因 此 ， 在 本 书 的 其 余部 分 ， 我们 将 完全 忽略 对 空 值 的 支持 (除非 在 有 关 SQL 的 讨论 中 ,会 
涉及 空 值 的 问题 )。 关 于 特殊 值 方 案 的 详细 论述 请 见 参考 文献 [19. 12] 。 


19.7 SQL 的 支持 


SQL 对 空 值 和 3VL 的 支持 遵循 前 面 章节 里 所 述 方法 的 主要 内 容 。 这 样 ， 比 如 当 SQL 在 某 个 
表 工 上 应 用 WHERE 子 句 时 ， 它 会 删除 所 有 对 于 这 个 WHERE 子 句 中 的 表达 式 求 出 的 值 是 false 
和 unk ( 即 非 tmue) 的 元 组 。 同 样 地 ， 当 SQL 在 某 个 “分 组 表 ” (grouped table) G 上 应 用 一 个 
HAVING 子 句 时 ， 它 会 删除 所 有 对 于 这 个 HAVING 子 句 中 的 表达 式 求 出 的 值 是 false 和 unk ( 即 
非 mme) 的 G 的 分 组 ”。 因 此 ， 在 接 下 来 的 部 分 中 ,我们 将 仅 限于 讨论 对 SQL 本 身 来 说 是 特殊 
的 某 些 3VL 特点 ， 而 不 是 像 先前 所 述 的 3VL 方法 的 本 质 部 分 。 

注意 : SQL 关于 空 值 支持 的 整个 董 涵 和 延伸 是 很 复杂 的 。 事 实 上 ， 虽 然 我 们 刚刚 说 过 在 很 
大 范围 内 SQL 遵循 3VL， 但 是 我 们 很 快 也 会 看 到 SQL 在 支持 这 个 逻辑 的 时 候 将 会 造成 许多 的 错 
误 。 有 关 更 多 的 信息 ， 请 参见 正式 标准 文档 一 一 参考 文献 [4.23] 或 [4.20] 中 详细 的 辅导 
教程 。 





GO ”这 个 说 明 引 用 了 原来 定义 的 操作 [14.7]; 定义 做 了 某 些 更 改 ， 见 [6.2]。 
后 ” 我 们 没有 为 此 用 空 值 ， 在 实际 工作 中 也 不 会 用 空 值 [19. 12] 。 
合 “分 组 表 是 当 执行 了 GROUP BY (可 能 是 隐 式 的 ) 时 产生 的 。 当 伴 有 执行 SELECT 时 ， 这 些 表 还 厌 成 非 分 组 表 。 
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1. 数据 类 型 

正如 我 们 在 第 4 章 所 看 到 的 那样 ，SQL 包括 内 置 的 BOOLEAN 类 型 ( 它 是 在 1999 年 加 入 到 
标准 中 的 ， 虽然 现存 几乎 没有 什么 产品 支持 这 个 类 型 )。 常 见 的 布尔 操作 符 如 AND，OR 以 及 
NOT 仍 是 有 用 的 ， 而 布尔 表达 式 可 以 出 现在 普通 标量 表达 式 出 现 的 任何 地 方 。 但 是 我 们 知道 ， 
现在 有 三 个 真 值 而 不 是 两 个 (对 应 的 文字 分 别 是 TRUE，FALSE 和 UNKNOWN ) 。 尽 管 BOOLE- 
AN 类 型 只 包括 两 个 值 ， 而 不 是 三 个 一 一 unknown 真 值 用 空 值 来 表示 也 是 不 正确 的 。 它 将 导致 ; 

am 将 UNKNOWN 的 值 赋 给 BOOLEAN 类 型 的 变量 如 事实 上 是 对 这 个 变量 赋 空 值 。 

m 在 这 样 的 赋值 之 后 ， 比 较 式 B = UNKNOWN 的 值 就 不 是 tue (或 者 TRUE) ， 而 是 空 值 。 

s 事实 上 ,不管 B 是 什么 值 ， 比 较 式 B = UNKNOWN 始终 是 空 值 一 一 因为 在 逻辑 上 这 个 比 

较 式 等 价 于 比较 式 B = NULL (但 并 不 意味 着 这 是 一 个 非法 的 语法 ) 。 

为 了 理解 这 个 缺陷 ， 必 须要 注意 区 分 在 数字 类 型 中 用 空 值 而 不 是 用 零 来 表示 零 。 

设 7 为 一 个 非 标量 类 型 或 一 个 结构 类 型 (这 里 将 结构 类 型 考虑 为 标量 类 型 或 非 标 量 类 型 并 
没有 什么 区 别 ) 。 为 证 明 我 们 的 观点 ， 设 7 为 一 个 特殊 的 行 类 型 ，V 是 类 型 了 的 一 个 变量 ， 那 么 
在 (a) 自身 是 空 值 ; (b) Y 至 少 有 一 组 成 部 分 〈 例 如 域 ) 是 空 值 之 间 有 一 个 很 明显 的 逻辑 区 
别 。 事实 上 ， 即 使 V 的 所 有 组 成 部 分 均 为 空 值 ,，V 本 身 的 值 也 不 一 定 为 空 值 ”。 一 一 如 果 V 值 为 
空 那 么 它 的 所 有 组 成 部 分 值 均 为 空 ， 这 点 可 能 是 正确 的 (虽然 在 这 个 项 上 定义 的 标准 是 模糊 
的 )。 因 此 ， 如 果 V 非 空 但 是 至 少 有 一 个 组 成 部 分 的 值 是 空 值 ， 比 较 式 V =V 值 为 空 ， 但 是 表达 
式 VIS NULL 值 为 FALSE。 通 常 ， 我 们 可 以 说 如 果 ( (V=V) IS NOT TRUE) IS TRUE 值 为 
TRUE， 那 么 要 么 V 值 为 空 ， 要么 V 有 一 个 组 成 部 分 为 空 。 

2. 基 表 

如 第 6. 6 节 所 述 的 ， 基 表 中 的 列 通常 有 一 个 相应 的 默认 值 ， 而 且 这 个 默认 值 经 常 被 显 式 或 隐 
式 地 定义 为 是 空 值 。 其 至 基 表 中 的 列 经 常 允许 取 空 值 ， 除 非 存 在 一 个 完整 性 约束 (可 能 仅 是 
NOT NULL) 这 个 约 东 明白 地 禁止 这 些 列 不 允许 为 空 值 。 

紧 接 着 前 面 所 说 的 ， 如 果 我 们 要 证 明 我 们 的 原理 为 真 ， 那 么 我 们 就 必须 将 在 本 书 中 之 前 所 提 
到 的 每 个 SQL 例子 中 出 现 的 所 有 基 表 的 列 显 式 或 隐 式 的 定义 为 非 空 。 至 少 从 现在 开始 要 对 即将 
出 现 的 SQL 例子 做 这 样 的 定义 。 但 是 ， 请 注意 主 码 (PRIMARY KEY) 规范 中 所 提 到 的 任何 列 
都 被 隐 式 的 定义 为 非 空 。 

3. 表 表 达 式 

回忆 一 下 8.6 节 ，1992 年 在 SQL 标准 里 给 SQL 增加 了 显 式 连 接 支持 。 如 果 在 关键 字 JOIN 
的 前 面 加 上 LEFT、RIGHT 或 FULL (每 种 情况 后 面 OUTER 词 可 有 可 无 ) ， 这 样 的 连接 就 是 一 个 
外 连接 。 下 面 有 几 个 例子 : 


S LEFT JOIN SP ON S.S# = SP.S# 





S LEFT JOIN SP USING ( S# ) 
S LEFT NATURAL JOIN SP 


这 三 个 表达 式 实际 上 都 是 相等 的 ， 除 了 第 一 个 得 出 一 个 有 两 个 相同 列 (都 是 S#) 的 表 ， 第 二 个 
和 第 三 个 得 出 一 个 只 有 一 列 的 表 。 

SQL 也 支持 一 个 外 并 的 近似 方法 ， 称 为 并 连接 。( SQL: 1992 中 加 入 了 该 方法 ，SQL: 2003 
又 将 其 删除 了 。) 关于 它 的 详细 论述 已 超出 本 书 范围 。 

4. 布尔 表达 式 

毫 无 疑问 ，SQL 中 的 布尔 表达 式 受 空 值 和 3VL 的 影响 很 大 。 我 们 在 这 里 作 几 个 重要 的 说 明 : 

wm 关于 空 值 的 计算 : SQL 提供 两 个 特殊 的 比较 操作 ，IS NUL 和 IS NOT NULL， 来 计算 空 值 

的 存在 或 不 存在 。 语 法 如 下 : 


<row value constructor> IS [ NOT ]】 NULL 





加 ”实际 上 ，SQL 在 这 一 点 上 也 是 错误 的 一 一 见 本 节 后 面 “布尔 表达 式 ” 部 分 关于 [NOT] NULL 的 讨论 。 
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如 果 < row value constructor > 构建 了 一 维 的 一 行 元 组 ， 那 么 SQL 将 认为 这 个 表达 式 表 达 的 是 包含 
在 这 一 行内 的 值 而 不 是 这 一 行 ; 否则 SQL 将 认为 这 个 表达 式 表示 的 是 这 一 行 。 在 稍 后 的 例子 中 ， 
SQL 将 这 行 认为 是 : (a) 空 值 当 且 仅 当 每 个 组 成 部 分 均 为 空 ; (b) 非 空当 且 仅 当 每 个 组 成 部 分 
均 为 非 空 ! 这 个 错误 造成 的 一 个 后 果 就 是 如 果 r 是 带 有 两 个 组 成 部 分 cl 和 c2 的 一 行 元 组 ， 那 么 
两 个 表达 式 r IS NOT NULL 和 NOT (r IS NULL) 是 不 相等 的 。 前 一 个 等 于 cl IS NOT NULL 
AND c2 1S NOT NULL, 而 后 一 个 等 于 cl IS NOT NULL OR c2 IS NOT NULL。 另 一 个 后 果 就 是 
如 果 包含 一 些 空 和 非 空 的 组 成 部 分 ， 那 么 上 很 明显 既 不 是 空 也 不 是 非 空 。 
关于 true 、false 和 unknown 的 计算 : 如 果 p 是 括号 中 的 布尔 表达 式 (虽然 括号 有 时 候 并 不 
是 必需 的 ， 但 是 加 上 括号 也 不 会 出 错 )， 于 是 下 述 也 是 布尔 表达 式 : 
p IS [ NOT } TRUE 


p IS [ NOT ] FALSE 
p IS { NOT ] UNKNOWN 


这 些 表达 式 的 含义 可 用 下 述 真 值 表 来 表述 : 


世 Ta 


IS TRUE true false | false 








IS NOT FALSE 
IS UNKNOWN 
IS NOT UNKNOWN 









观察 后 可 知 ， 表 达 式 p IS NOT TRUE 和 NOT p 是 不 相等 的 。 注 意 : 表达 式 p IS UNKNOWN 
对 应 于 MAYBE (p)。 如 果 SQL 中 使 用 空 值 来 表示 unk， 那 么 它 也 等 价 于 p IS NULL。 

ss EXISTS 条 件 : SQL 中 EXISTS 操作 符 同 3VL 方法 中 的 存在 量词 并 不 相同 ， 因 为 它 的 值 总 
为 tmue 或 false ， 不 会 为 unk， 即 使 unk 是 逻辑 上 的 准确 值 。 具 体 的 说 ， 如 果 它 的 参数 表 为 
空 ， 那 么 它 将 返回 false， 否 则 返回 tue ( 因此， 虽然 unk 是 逻辑 上 的 正确 答案 ， 但 是 有 时 
候 返 回 值 却 为 rue) 。 具 体 的 细节 请 见 参 考 文献 [19.6]。 

ms UNIQUE 条 件 : UNIQUE 条 件 用 于 检测 某 个 表 中 是 否 包含 重复 的 行 。 更 详细 点 就 是 ， 如 果 
一 个 表 (用 < table exp > 表示 ) 包含 两 行 ri 入 ,它们 完全 相同 ， 表 达 式 UNIQUE 
( <table exp > ) 返 回 ttue， 也 就 是 说 比较 式 rl = 及 返回 true， 否 则 返回 false。 因 此 ， 就 像 
EXISTS 一 样 ，UNIQUE 在 unk 是 逻辑 上 的 正确 答案 时 有 时 候 返 回 tme。 

ms DISTICT 条 件 : DISTICT 条 件 用 于 检测 两 个 行 是 否 相 同 。 假 设 两 个 行 分 别 表 示 为 Left 和 
Right: Left 和 Right 必须 有 相同 的 维度 ， 设 为 mn。 假设 Left 和 Right 的 第 i 个 部 分 为 Li 和 
Ri (i=1，2，…,，n); Li 和 Ri 必须 使 得 比较 式 Li = Ri 合理 ， 那 么 表达 式 


Left IS DISTINCT FROM Right 


对 于 所 有 的 i， 如 果 : a) “Li= Ri” 为 true, 或 b) Li 和 Ri 均 为 空 ， 则 返回 false， 否则 返 
回 true。 

5. 其 他 标量 表达 式 

我 们 再 来 看 一 些 重 要 的 特殊 例子 : 

mn“ 文字 ” (literal) : 关键 字 NULL 可 以 被 用 作 空 值 的 文字 表示 (如 在 INSERT 语句 里 ) 。 然 
而 注意 ， 这 个 关键 字 并 不 能 在 所 有 文字 可 以 出 现 的 环境 里 出 现 ; 如 标准 所 述 的 , “不 存在 
空 值 的 < literal > ， 虽 然 在 某 些 地 方 使 用 关键 字 NULL 来 表示 这 里 需要 一 个 空 值 ” 
[4.23]。 这 样 ， 就 不 能 清楚 地 指明 NULL 作为 一 个 简单 比较 式 的 操作 数 (例如 ， 
“WHERE X = NULL”) 是 非法 的 〈 正 确 的 形式 是 “WHERE X IS NULL ”) 。 
COALESCE (合并 ) : SQL 中 的 COALESCE 类 似 于 前 面 提 到 的 F_UNK 操作 符 。 更 具体 
些 就 是 ， 如 果 *，y，…，z 均 为 空 ， 那 么 表达 式 COALESCE (x, y,…, z) 返回 空 ; 否 
则 它 返 回 第 一 个 非 空 操作 符 的 值 。 
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聚集 操作 符 : SQL 聚集 操作 符 (SUM，AVG 等 ) 的 计算 和 19. 2 节 所 述 的 标 批 操作 符 的 
规则 并 不 一 致 ， 它 们 在 计算 中 忽略 了 参数 中 任何 的 空 值 。( 除 了 COUNT (* ) 以 外 , 它 
把 空 值 看 成 是 一 般 值 .) 同样 ， 如 果 这 样 的 操作 符 的 参数 碰巧 是 空 集 ， 则 COUNT 会 返回 
零 ; 其 他 操作 符 都 返回 空 值 。( 如 第 8 童 所 述 ， 后 者 在 逻辑 上 是 错误 的 ,但 SQL 就 是 如 此 
定义 的 。) 


“标量 子 查询 ”Scalar subqueries) ， 如 果 一 个 标量 表达 式 是 一 个 在 括号 里 仆人 


6. 


如 ，(SELECT S. CITY FROM S WHERE S. S# = S# ( S1 ) ) 一 一 一 般 地 讲 ， 这 个 表达 式 
会 求 得 一 个 单列 单行 的 表 。 于 中 这 个 标 和 表达 式 的 信 其 实业 痪 地 来 尖 是 一 个 只 公信 个 标 
量 值 的 表 。 但 是 ， 如 果 这 个 表达 式 求 得 的 值 是 -个 根本 没有 行 的 单列 表 ， 则 SQL 把 这 个 
标量 表达 式 的 值 定 义 为 空 值 。 

码 


SQL 中 空 值 和 码 的 相互 关系 概括 如 下 : 


N 


候选 码 : 假设 C 是 某 个 基本 表 的 某 个 候选 码 的 一 个 组 成 列 。 如 果 久 是 主 码 ， 则 SQL 不 
会 允许 C 包含 任何 空 值 ( 换 名 话说 ， 它 应 当 遵 守 实 体 完整 性 规则 )。 然 而 ， 若 KK 不 是 主 
码 ， 则 SQL 会 允许 C 包含 任何 数 自 的 空 值 ( 当然 也 允许 包含 任何 数目 的 非 空 值 )。 
为 了 很 好 地 将 前 面 所 讲 的 内 容 联 系 起 来 ， 可 以 从 参考 文献 [4. 20] 了 解 到 :“ 假 设 刀 是 K 
的 新 值 ， 有 些 用 户 企图 使 用 操作 INSERT 或 UPDATE 操作 向 中 增加 此 值 …… 如 果 避 与 
的 某 个 值 息 (在 同一 个 表 中 原 有 的 值 ) 相同 ， 那 么 将 拒绝 执行 INSERT 或 UPDATE 操 
作 …… 那 么 刀 与 马 的 值 是 否 相同 呢 ? 我 们 可 以 得 出 一 个 结论 就 是 下 面 三 个 句子 没有 两 个 
是 等 价 的 : 
1) 如 果 比 较 刀 与 如 的 值 ， 那 么 它们 是 相同 的 。 
2) 如 果 刀 与 局 是 作为 码 唯一 性 的 候选 项 ， 那 么 它们 是 相同 的 。 
3) 如 果 电 与 局 是 用 于 消除 重复 值 ， 那 么 它们 是 相同 的 。 
第 一 个 语句 符合 3VL 规则 ; 第 二 个 语句 与 UNIQUE 条 件 中 的 规则 也 是 相符 的 ; 第 三 个 语 
名 与 19. 2 节 中 重复 的 定义 是 相符 的 。 特 别 的 是 当 刀 与 刀 均 为 空 值 时 ， 第 一 条 语句 返回 
unk， 第 二 条 返回 false， 第 三 条 返回 true。” 
外 码 : 在 空 s 信 情况 下 如 何 确定 外 码 与 相应 主 码 值 的 关系 ， 规 则 是 相当 复杂 的 ， 有 关 细 节 这 
里 不 再 详 述 。 注 意 ; 空 值 对 于 参照 行为 《CASCADE、SET NULL 等 ) 也 有 潜在 影响 ， 在 
ON DELETE 和 ON UPDATE 子 句 中 有 详细 说 明 (SET DEFAULT 也 以 明显 的 解释 得 到 支 
持 )。 同 样 ， 这 些 细节 也 是 相当 复杂 的 ， 并 且 超 出 了 本 书 范围 关于 细节 请 参见 [4.20]。 
柑 入 式 SQL 
指示 变量 : 考虑 下 面 的 一 个 嵌 人 式 SQL “singleton SELECT” 示 例 (第 4 章 的 示例 ) ; 
EXEC SQL SELECT STATUS, CITY 
INTO :RANK, :TOWN 

FROM S 

WHERE S# = S# ( :GIVENS# ) ; 
假设 有 可 能 某 些 供应 商 的 STATUS 的 值 是 空 值 。 如 果 被 选中 的 STATUS 是 空 值 ， 则 上 面 
的 SELECT 语句 将 会 失败 (SQLSTATE 将 会 被 置 为 异常 值 22002 ) 。 通 常 ， 如 果 存 在 被 选 
取 的 值 是 空 值 的 可 能 ， 则 用 户 应 当 给 目标 变量 指定 一 个 指示 变量 ， 如 下 面 所 示 : 


EXEC SQL SELECT STATUS, CITY 
INTO :RANK INDICATOR :RANKIND, :TOWN 
FROM 
WHERE S# = S# ( :GIVENS# } ; 
IF RANKIND = -1 THEN /* STATUS was null */ ... ; END IF ; 


如 果 被 选取 的 值 是 空 值 且 指示 变量 已 被 指定 ， 则 这 个 指示 变量 被 置 为 值 - 1。 对 于 通常 的 
目标 变量 所 造成 的 影响 依 执行 而 定 。 


sm 排序 ， ORDER BY 子 句 在 游标 定义 (cursor definition) 中 被 用 来 对 表达 式 结果 里 的 行进 行 


排序 。( 当然 ， 在 交互 式 的 查询 中 也 会 用 到 。) 这 样 产 生 了 下 述 问题 : 如 果 标 址 值 4 或 
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是 空 值 (或 都 是 ) ， 则 4 和 8B 的 相对 次 序 是 什么 ? SQL 关于 这 个 问题 的 回答 如 下 : 

1) 对 于 排序 ， 所 有 的 空 值 被 认为 是 互相 相等 的 。 

2) 对 于 排序 ， 所 有 的 空 值 被 认为 大 于 所 有 的 非 空 值 或 小 于 所 有 的 非 空 值 ( 到 底 应 用 哪 种 
情况 视 实现 而 定 ) 。 


19.8 小 结 


我 们 已 经 讨论 了 关于 信息 空缺 的 问题 和 目前 流行 的 (虽然 很 不 好 ) 一 种 基于 空 值 和 三 值 
逻辑 (3VL) 的 关于 这 个 问题 的 解决 方法 。 我 们 强调 这 样 的 观点 : 空 值 不 是 一 个 值 ， 虽然 通 
常 好 像 它 是 一 个 值 。( 比方 说 ， 某 个 特殊 元 组 的 某 个 特殊 属性 值 是 “ 空 值 ”。) 有 一 个 操作 数 
是 空 值 的 任何 比较 式 的 值 等 于 “第 三 个 真 值 ”unknown (缩写 为 unk)， 因 此 有 了 三 值 逻 辑 。 
同时 提 到 ， 至 少 在 概念 上 ， 存 在 许多 不 同 种 类 的 空 值 ， 并 把 UNK 作为 “未 知 值 ”这 个 类 型 的 
一 个 简写 。 

然后 我 们 研究 了 UNK 和 3VL 在 布尔 表达 式 AND、OR、NOT (还 有 MAYBE); 量词 EX- 
ISTS 和 FORALL ; 计算 表达 式 ; 关系 操作 符 ; 更 新 操作 符 INSERT 和 UPDATE 上 的 潜在 影响 。 
介绍 了 操作 符 IS_UNK (用 来 测试 UNK) 、 亚 _UNK (用 来 把 UNK 转化 为 非 UNK 值 ) 。 讨 论 了 
关于 UNK 的 等 同 问题 ， 并 指出 了 UNK 和 unk 不 是 同一 回 事 。 

接 下 来 ， 我 们 研究 了 上 述 思想 所 造成 的 一 些 后 果 。 首 先 ， 说 明了 某 些 恒等式 在 3VL 中 不 再 
有 效 一 一 即 在 2VL 中 有 效 的 等 价 式 在 3VL 中 不 再 有 效 。 因 此 ， 用 户 和 优化 器 可 能 在 表达 式 转换 
中 产生 错误 。 而 且 ， 即 使 这 样 的 错误 不 会 发 生 ，3VL 也 会 因 它 和 现实 世界 不 符 这 个 严重 问题 而 
带 来 麻烦 一 一 即 对 于 3VL 是 正确 的 结果 某 些 时 候 在 现实 世界 中 是 不 正确 的 。 

于 是 我 们 继续 讨论 了 在 主 码 和 外 码 上 的 空 值 的 潜在 影响 (特别 提 到 了 实体 完整 性 规则 和 修 
改过 的 参照 完整 性 规则 ) 。 接 下 来 介绍 了 外 连接 。 我 们 自己 不 提倡 直接 支持 这 个 操作 ( 至 少 不 像 
通常 理解 的 那样 ) ， 因 为 我 们 相信 有 更 好 的 方法 来 解决 外 连接 要 解决 的 问题 一 一 特别 地 ， 我 们 推 
荐 一 种 使 用 关系 值 属性 的 解决 方法 。 简 要 地 提 到 了 其 他 “外 ”操作 的 可 能 性 ， 特 别 是 外 并 。 

接 下 来 ， 我 们 研究 了 上 述 思想 的 SQL 支持 。SQL 对 空缺 信息 的 处 理 主 要 是 基于 3VL， 但 它 
设法 包括 了 大 量 附加 的 复杂 东西 ， 大 部 分 都 超过 了 本 书 的 范围 。 其 实 ，SQL 是 在 设法 引入 一 些 
附加 的 缺点 ， 这 些 缺 点 是 3VL 本 身 造成 的 【19.6，19. 10]。 更 糟 的 是 ， 这 些 附加 的 缺点 成 了 优 
化 的 抑制 剂 (在 第 18 章 结尾 处 提 到 过 ) 。 

最 后 小 结 如 下 : 

s 大 家 会 注意 到 ， 我 们 仅仅 涉及 由 空 值 和 3VL 所 造成 的 表面 的 问题 。 但 我 们 已 经 尽力 用 足 

够 多 的 理由 来 说 明 从 3VL 方法 中 得 到 的 “好 处 ”是 值得 怀疑 的 。 

m 我 们 也 使 大 家 明白 ， 即 使 你 不 相信 关于 3VL 本 身 的 问题 ， 但 仍 建议 大 家 应 避 开 它 在 SQL 
上 所 造成 的 相关 东西 ， 否 则 会 有 上 面 所 述 的 “附加 的 缺点 ”。 

s 我 们 给 DBMS 用 户 的 建议 是 ; 完全 忽略 厂家 的 3VL 的 支持 ， 使 用 一 个 遵守 规则 的 “特殊 
值 ”方案 (从 而 牢 牢 地 坚持 二 值 逻 辑 ) 。 这 个 方案 在 参考 文献 [19. 12] 里 有 详细 论述 。 

s 最 后 ， 我 们 重复 下 述 来 自 19. 3 节 的 基本 要 点 : 不 精确 地 讲 ， 如 果 一 个 给 定 关 系 的 给 定 元 
组 的 给 定 属性 的 值 “ 是 空 值 ”"， 则 这 个 属性 的 位 置 其 实 根本 没有 包含 任何 东西 …… 这 就 推 
导出 这 个 “属性 ”不 是 一 个 属性 ， 这 个 “元 组 ”不 是 一 个 元 组 ， 这 个 “关系 ”不 是 一 个 
关系 ， 且 我 们 正在 做 的 不管 它 会 是 什么 ) 基础 不 再 是 数学 上 的 关系 理论 。 





习题 

19.1 若 A=6, B=5, C=4, 且 D 是 UNK, 请 说 出 下 列表 达 式 的 真 值 : 
a A=BOR(B>CANDA>D) 
b.A>BAND(B<CORIS UNK(A-D)) 

.A<CORB<C OR NOT (A=C) 

.B<DORB=D ORB>D 

. MAYBE ( A>BANDB>C) 


mm A Nn 





19.2 


19.3 
19. 4 


19. 


19.6 
19.7 


19.8 
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f. MAYBE ( IS UNK (D ) ) 
g. MAYBE ( IS UNK (Rt+tB ) ) 
h. IF UNK ( D, A)>BAND IF UNK (CcC,D)<B 


假设 关系 7 正好 包含 下 列 元 组 : 


( 6, 5, 4 ) 
( UNK, 5, 4 ) 
( 6, UNK, 4 ) 
( UNK, :UNK, 4 ) 
( UNK, UNK, UNK ) 


像 本 章 内 容 所 述 的 ， 假 设 a) 这 三 个 属性 以 上 面 所 示 的 顺序 从 左 到 右 依次 叫 作 4、B 和 C, 且 b) 每 
一 个 属性 都 是 INTEGER 类 型 。 若 V 是 r 上 的 范围 变量 ,请 说 出 下 列表 达 式 的 真 值 : 


a. EXISTS V ( VY.B > 5 ) 

b. EXISTS V ( V.B > 2 RND V.C > 5 ) 

CcC. EXISTS V ( MAYBE ( V.C >3)) 

d. EXISTS V ( MAYBE ( IS UNK ( V.C ) ) ) 

e, FORALL V ( V.A>1) 

f. FORALL V ( V.B>1 ORIS UNK(V.B)) 
V (人 


8，FORRLL 


严格 地 说 IS_UNK 操作 符 是 多 余 的 。 为 什么 ? 

在 参考 文献 [14.7] 里 ，Codd 提出 了 一 些 〈 不 是 所 有 ) 关系 代数 操作 符 的 “maybe” 方 案 。 比 如 ， 
maybe-restrict 和 通常 的 restrict 不 同 ， 它 返回 这 样 的 一 个 关系 ， 这 个 关系 包含 在 选择 条 件 上 求 出 的 值 
是 unk 而 不 是 true 的 元 组 。 然 而 严格 地 讲 这 样 的 操作 符 是 多 余 的 。 为 什么 ? 

在 二 值 逻 辑 (2VL) 里 , 正好 存在 两 个 真 值 ，true 和 false。 结 果 正 好 有 4 个 可 能 的 单元 逻辑 操作 
符 一 一 一 个 把 tue 和 false 都 变换 为 tue， 一 个 把 两 者 都 变换 为 false， 一 个 把 tue 变换 为 false， 一 个 
把 false 变 为 mue (当然 这 个 操作 符 是 NOT) ， 还 有 一 个 是 使 两 者 都 不 会 变化 。 正 好 存在 16 个 可 能 的 
二 元 操作 符 ， 如 下 表 所 示 : 


MAYBE ( V.A > V.B ) ) 





证 明 ，2VL 中 的 所 有 4 个 单元 操作 符 和 16 个 二 元 操作 符 可 以 用 NOT、AND 和 OR 的 适当 组 合 来 表 
示 (因此 就 没有 必要 明确 地 支持 所 有 20 个 操作 符 ) 。 

在 3VL 里 有 多 少 逻 辑 操作 符 ” 在 4VL 里 是 多 少 ? 推广 到 更 一 般 的 人 情形， 在 nVL 里 会 是 多 少 ? 

2VL 操作 符 NOR (通常 也 用 一 个 竖 线 “1 ”表示 ) 的 真 值 表 如 下 : 


从 真 值 表 可 以 看 出 p1 4 等 价 于 NOT p AND NOT 4 (可 以 理解 为 “ 既 不 …… 也 不 ， 既 不 是 第 一 个 操 
作 数 也 不 是 第 二 个 操作 数 时 为 ue" ) 。 所 有 20 个 2VL 操作 符 都 可 以 按照 这 个 操作 符 的 形式 来 表达 。 
注意 : NOR 在 整个 2VL 中 是 一 个 “产生 ”操作 符 。 你 能 在 3VL 中 找 出 功能 与 它 类 似 的 操作 符 吗 ? 
在 4VL、aVL 中 呢 ? 

(来 自 参 考 文献 [19. 5]) 图 19-5 表示 常用 的 供应 商 和 零件 数据 库 里 的 一 些 样 本 值 ， 但 稍微 有 点 变 
化 。( 这 个 变化 是 : 关系 SP 包含 一 个 新 的 供 货号 属性 SHIP#， 且 这 个 关系 中 的 属性 P# 现 在 “人 允许 为 
UNK”; 关系 和 这 个 练习 没有 关系 ， 故 这 里 被 省 咯 ) 。 考 虚 下 面 的 关系 演算 查询 (这 里 S 和 SP 是 
隐 含 的 范围 变量 ) 。 下 面 哪 一 个 ( 若 有 ) 是 这 个 查询 的 正确 解释 ? 

a) 取出 不 供应 P2 的 供应 商 。 

b) 取出 不 知道 供应 P2 的 供应 商 。 
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c) 取出 已 知道 不 供应 P2 的 供应 商 。 
d) 取出 已 知道 不 供应 P2 或 不 知道 供应 P2 的 供应 商 。 














STATUS | CITY 








20 | London 
10 | Paris 
30 | Paris 
20 | London 











图 19-5 供应 商 和 零件 数据 库 示 例 


19.9 为 SQL 基本 表 设计 一 个 物理 表示 方案 ， 这 些 基 本 表 人 允许 包含 空 值 。 
19.10 定义 SQL EXIST、UNIQUE、IS DISTINCT FROM 操作 符 。 这 些 操作 符 是 起 始 操作 符 吗 ， 能 用 其 他 


操作 符 表示 吗 ? 存在 IS NOT DISTINCT FROM 操作 符 吗 ? 请 给 出 一 个 查询 的 例子 ， 这 个 查询 里 包 
括 a) EXISTS b) UNIQUE， 产 生 “ 错 误 ” 的 结果 。 
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本 章 第 19. 5 节 提 到 这 样 的 事实 ， 外 连接 有 一 些 “ 令 人 讨厌 的 特点 ”"。 这 篇 论文 把 这 些 特点 
总 结 如 下 : 

1) 外 6 连接 不 是 笛 卡 尔 积 的 一 个 选择 。 

2) 外 8 连接 上 没有 选择 。 

3)“A<B” 和 “A <B OR 4=B” 不 是 同一 回 事 (在 外 连接 环境 里 ) 。 

4) 8 比较 操作 符 不 可 传递 (在 3VL 里 ) 。 
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5) 外 自然 连接 不 是 外 等 值 连接 的 一 个 投影 。 
这 篇 论文 继续 考虑 为 SQL SELECT-FROM-WHERE 结构 增加 外 连接 将 会 怎么 样 。 它 叙述 了 上 述 
令 人 讨厌 的 特点 会 推导 出 下 列 情况 : 

1) WHERE 子 句 不 能 进行 扩展 操作 。 

2) 外 连接 不 能 进行 AND 操作 和 选择 操作 。 

3) 不 能 在 WHERE 子 句 里 表达 连接 条 件 。 

4) 多 于 两 个 关系 的 外 连接 若 没 有 髓 套 表达 式 将 不 能 被 明确 地 表达 出 来 。 

5) SELECT 子 句 (单独 ) 不 能 进行 扩展 操作 。 
这 篇 论文 也 说 明了 许多 现 有 产品 与 这 些 因素 的 冲突 。 
C. I. Date:“Composite Foreign Keys and Nulls, "in C. 村 Date and Hugh Darwen, Relational Database 
Writings 1989 - 1991. Reading, Mass. : Addison-Wesley (1992 ) . 

这 篇 论文 讨论 了 这 个 问题 : 允许 复合 外 码 整个 或 部 分 是 空 值 吗 ? 
C.J. Date;“ Three-Valued Logic and the Real World,”in C.J. Date and Hugh Darwen, Relational Da- 
tabase Writings 1989 - 1991. Reading, Mass. : Addison-Wesley (1992). 
C.J. Date: “Oh No Not Nulls Again,” in C.J. Date and Hugh Darwen, Relational Database Writings 
1989 - 1991. Reading, Mass. : Addison-Wesley (1992). 

这 篇 论文 提供 了 很 多 的 大 家 也 许 想 知道 的 关于 空 值 的 东西 。 
C.J. Date:“A Note on the Logical Operators of SQL,” in Relational Database Writings 1991 ~ 
1994. Reading, Mass. : Addison-Wesley (1995 ) . 

由 于 3VL 有 三 个 真 值 tue、false 和 unk (这 里 分 别 缩写 为 t、f 和 4)， 所 以 存在 3*3*3 = 
27 个 可 能 的 单元 操作 符 ， 因 为 每 个 可 能 的 输入 t、f 和 aa 可 以 映像 为 三 个 可 能 输出 t、f 和 4 中 的 
一 个 。 因 此 有 3”=19 683 个 可 能 的 二 元 3VL 操作 符 ， 如 下 面 的 表格 所 示 : 


t u f 


t | t/u/f t/u/f t/u/f 
u | t/au/f t/u/f t/u/f 
上 | t/u/f t/u/f t/u/f 





其 实 更 一 般 的 情况 是 ，n 值 远 辑 包括 上 的 = 次 方 赛 个 单元 操作 符 和 nm 的 nw 次 方 知 个 二 元 操 
作 符 : 


Monadic operators 














Dyadic operators 





2VL 16 
3VL 19,683 
4VL 256 4,294,967,296 
nVE (njx*(n) (nx(n2) 





于 是 ， 对 任何 nVL (n >2) ,会 产生 下 述 问题 : 
@ 一 个 合适 的 原 语 操 作 符 集 合 是 什么 ? (比如 ,集合 {NOT，AND| 或 1NOT，OR| 是 2VL 
的 一 个 适合 的 原 语 集 合 。) 
四 一 个 有 用 的 操作 符 集 合 是 什么 ? (比如 ,集合 |NOT，AND，OR| 是 2VL 的 一 个 有 用 集 
合 。) 
参考 文献 【19. 11] 说 明了 SQL 标准 (在 一 个 很 宽松 的 解释 方式 下 ) 至 少 直接 或 间接 地 支 
持 所 有 19 710 个 3VL 操作 符 。 
C. I. Date.“ Faults and Defaults” (in five parts) ,in C. I. Date, Hugh Darwen, and David McGoveran, 
Relational Database Writings 1994 - 1997. Reading, Mass. : Addison-Wesley (1998). 
叙述 一 个 解决 空缺 信息 问题 的 系统 方法 ， 这 个 方法 是 基于 特殊 值 和 2VL 而 不 是 空 值 和 
3VL。 这 篇 论文 有 力 地 辩 明 特殊 值 是 我 们 在 现实 世界 所 使 用 的 东西 ， 即 在 现实 世界 里 不 存在 空 值 
这 样 的 事物 。 于 是 数据 库 系 统 在 这 个 方面 应 当 像 现实 世界 处 理 问题 一 样 来 处 理 问题 。 
Debabrata Dey and Sumit Sarkar:“ A Probabilistic Relational Model and Algebra,” ACM TODS 21, 
No. 3 (September 1996). 
提出 一 个 基于 概率 理论 而 不 是 空 值 和 3VL 的 、 用 来 解决 “数据 值 不 确定 性 ”问题 的 方法 。 
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[19. 14] 


[19. 15] 


[19. 16] 


[19.17] 


[19. 18] 


[19.19] 


[19. 20] 


第 五 部 分 高级 去 题 


“或 然 性 关系 模型 ”是 传统 关系 模型 的 一 个 可 兼容 的 扩展 。 
César A. Galindo-Legaria :; “ Outerjoins as Disjunctions,” Proc. 1994 ACM SIGMOD Int. Cont. on Man- 
agement of Data, Minneapolis, Minn. (May 1994 ) . 

一 般 来 说 ， 外 连接 不 是 一 个 关联 的 操作 符 【19.4] 。 这 篇 论文 准确 地 描述 了 外 连接 的 特点 ， 
这 些 外 连接 有 的 是 关联 的 ， 有 的 不 是 关联 的 ， 并 为 每 种 情况 提出 了 实现 方案 。 
César Galindo-Legaria and Amon Rosenthal; “ Outerjoin Simplification and Reordering for Query Opti- 
mization,” ACM TODS 22, No. 1 (March 1997). 

介绍 了 包含 外 连接 的 表达 式 的 “一 个 完整 的 变换 规则 集合 ”。 
Piyush Goel and Bala Iyer:“ SQL Query Optimization: Reordering for a General Class of Queries,” 
Proc. 1996 ACM SIGMOD Int. Conf. on Management of Data, Montreal , Canada ( june 1996 ) . 

像 [19.15] 一 样 ， 这 篇 论文 讨论 了 包含 外 连接 的 表达 式 的 转换 : “ [我 们 ] 提出 了 一 个 方 
法 ， 用 来 重新 组 织 [一 个 ] 包含 外 连接 、 和 …… 聚 集 的 SQL 查询 …… [我 们 ] 标识 了 一 个 强 有 
力 的 【在 这 样 的 重组 织 中 起 辅助 作用 ] 的 原 语 ，[ 我们 ] 把 这 个 原 语 称 为 通用 化 查询 。 
1.J. Heath: IBM internal memo (April 1971 ) . 

这 篇 论文 介绍 了 “外 连接 ”术语 (和 概念 )。 
Ken-Chih Liu and Rajshekhar Sunderraman:“Indefinite and Maybe information in Relational Databas- 
es,” ACM TODS 15, No. 1 (March 1990 ) . 

包含 一 组 正式 的 建议 ， 这 些 建 议 被 用 来 扩展 关系 模型 以 便 处 理 maybe 信息 〈 比 如, “零件 
P7 可 能 是 黑色 ”) 和 不 确定 性 的 或 离散 的 信息 (比如 ,， “零件 P8 或 零件 P9 是 红色 的 ” ) 。 介 绍 了 
1 表 ， 用 来 表示 正常 (确定 的 ) 信息 、maybe 信息 和 不 确定 性 信息 。 扩 展 了 选择 、 投 影 、 乘 积 、 
并 、 交 和 差 操 作 符 ， 以 便 对 工 表 进 行 操作 。 
David McGoveran: “Nothing from Nothing” (in four parts), in C.1. Date, Hugh Darwen, and David 
McGoveran, Relational Database Writings 1994 - 1997. Reading, Mass. : Addison-Wesley (1998). 

这 篇 论文 由 四 部 分 构成 。 第 一 部 分 叙述 了 在 数据 库 中 逻辑 的 重要 作用 。 第 二 部 分 明确 地 表 
述 了 为 什么 必须 是 二 值 逻辑 ， 为 什么 试图 使 用 三 值 逮 辑 (3VL) 是 被 误导 的 。 第 三 部 分 研究 了 
三 值 逻 辑 (3VL) 应 当 要 “解决 ”的 问题 。 最 后 ， 第 四 部 分 介绍 了 一 组 对 这 些 问 题 注重 实效 的 
解决 方案 ， 这 些 方案 不 包含 3VL。 
Nicholas Rescher: Many-Valued Logic. New York, N.Y. : McGraw-Hill (1969 ) . 

标准 文本 。 





第 20 章 类 型 继承 


20. 1 引言 


注意 : 本 章 将 在 很 大 程度 上 依赖 第 5 章 的 讨论 。 如 果 你 之 前 只 是 简略 地 阅读 第 5 章 ， 那 么 你 


在 开始 本 章 的 学 习 之 前 ， 需 要 返回 到 第 5 章 仔 细 阅 读 它 的 内 容 。 


在 第 14 章 介绍 了 子 类 型 和 超 类 型 的 概念 ， 更 确切 地 说 是 实体 子 类 型 和 实体 超 类 型 。 在 该 章 


中 指出 ， 假 设 某 些 雇员 是 程序 员 ， 而 所 有 的 程序 员 都 是 和 雇员， 那么 可 以 认为 实体 类 型 PRO- 
GRAMMER (程序 员 ) 是 实体 类 型 EMPLOYEE (雇员 ) 的 子 类 型 ， 而 EMPLOYEE 是 PRO- 
GRAMMER 的 超 类 型 。 同 时 也 指出 ， 一 个 “实体 类 型 ”并 不 是 一 个 非常 规范 意义 上 的 “类 型 ” 
(部 分 原因 是 由 于 “实体 ”本 身 没有 正式 的 定义 ) 。 在 本 章 中 ， 我 们 将 深入 地 分 析 子 类 型 和 超 类 


型 。 


型 9 


而 对 于 “类 型 "， 将 使 用 第 5 章 中 给 出 的 比较 规范 和 准确 的 定义 。 因 此 ， 先 从 更 准确 的 “类 

定义 开始 : 

a 一 个 类 型 是 一 组 值 的 命名 集合 〈 即 被 讨论 类 型 的 所 有 可 能 的 取 值 ) ， 以 及 与 之 相关 的 可 以 
在 属于 该 类 型 的 值 或 变量 上 应 用 的 操作 的 集合 。 

进一步 地 讲 : 

任何 给 定 的 类 型 可 以 是 系统 定义 的 ， 也 可 以 是 用 户 定义 的 。 

a 任何 给 定 类 型 的 定义 是 对 该 类 型 中 所 有 有 效 值 构成 的 集合 的 规格 说 明 (规格 说 明 就 是 在 
第 5 章 和 第 9 章 所 说 的 有 效 类 型 约束 )。 

s 这 些 值 可 以 具有 任意 的 复杂 度 。 

s 这 些 值 的 实际 表示 形式 或 物理 表示 形式 对 用 户 通 常 是 不 可 见 的 ， 即 类 型 与 其 〈 实 际 ) 表 
示 形 式 是 不 同 的。 但 是 每 种 类 型 至 少 要 通过 合适 的 THE_ 操 作 (或 是 其 他 等 价 的 逻辑 操 
作 ) 明确 地 给 用 户 提供 一 种 合适 的 表示 形式 。 

任何 给 定 类 型 的 值 或 由 该 类 型 定义 的 变量 只 4 能 通过 定义 在 该 类 型 上 的 操作 进行 操作 。 

s 除了 已 经 提 到 的 THE_ 操 作 ， 类 型 的 操作 还 包括 : 
。 至 少 要 有 一 个 选择 子 操作 (更 确切 地 说 ， 对 应 于 每 种 可 能 的 外 在 表示 形式 都 应 该 有 一 

个 这 样 的 操作 ) ， 通 过 调用 合适 的 选择 子 操作 ， 可 以 实现 对 类 型 中 的 每 个 值 进行 选取 和 
引用 。 

。 一 个 相等 操作 ， 可 以 检查 相同 类 型 的 两 个 值 是 否 相等 。 

。 一 个 赋值 操作 ， 可 以 将 一 个 值 赋 给 同类 型 的 一 个 变量 。 

在 上 述 的 基础 上 ， 现 在 指出 : 

某 些 类 型 是 另外 一 些 超 类 型 的 子 类 型 。 如 果 B 是 4 的 子 类 型 ， 则 所 有 适用 于 4 的 操作 和 
类 型 约束 都 适用 于 B (继承 ) ， 但 同时 互 拥有 属于 自己 的 、 并 不 适用 于 4 的 操作 和 类 型 约 
束 。 

举 个 例子 ,假设 有 ELLIPSE (椭圆 ) 和 CIRCLE ( 圆 ) 两 种 类 型 。 顾名思义 ， 可 以 说 CIR- 


CLE 是 ELLIPSE 的 子 类 型 ( ELLIPSE 是 CIRCLE 的 超 类 型 ) 。 这 实际 上 是 说 : 


s 每 个 圆 同 时 也 是 一 个 椭圆 〈 即 所 有 圆 的 集合 是 所 有 椭圆 的 集合 的 一 个 子 集 ) ， 但 是 反之 并 
不 成 立 。 

a 因此 ， 普 遍 适 用 于 椭圆 的 操作 也 相应 地 适用 于 圆 (因为 圆 属于 椭圆 ) ， 但 是 反之 并 不 成 
立 。 比 如 ， 操 作 THE_CTR ( 取 中 心 ) 可 以 适用 于 椭圆 ， 从 而 也 适用 于 圆 , 但 是 操作 
THE_R ( 取 半 径 ) 则 只 适用 于 圆 。 

a 此 外 ， 普遍 适用 于 椭圆 的 约束 也 相应 地 适用 于 图 (同样 是 由 于 圆 属于 椭圆 ) ， 但 是 反之 并 
不 成 立 。 比 如 ， 椭 圆 遵 循 约 束 a>b (a 和 4b 分别 是 椭圆 的 长 半 轴 和 短 半 轴 ) ， 则 圆 必 定 也 
满足 这 一 约束 。 当 然 对 于 圆 而 言 ，a、b 就 是 半径 +r， 但 约束 还 是 得 到 了 满足 。 事 实 上 确切 
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地 说 ,约束 a =b 只 适用 于 加 ® 而 并 不 能 普遍 适用 于 椭圆 。 注 意 ， 在 本章 里 ， 我 们 所 说 的 
“约束 ”一 词 是 指 一 种 类 型 约束 ， 所 说 的 “半径 ”和 “ 半 轴 ”实际 上 是 指 相 应 的 半径 长 度 
和 半 轴 长 度 。 
小 结 一 下 : 简单 地 说 ， 类 型 CIRCLE 继承 了 类 型 ELLIPSE 的 操作 和 约束 ， 同 时 还 有 属于 自 
己 的 操作 和 约束 ， 但 是 这 些 操作 和 约束 并 不 适用 于 类 型 ELLIPSE。 这 样 一 种 情况 往往 容易 引起 概 
念 上 的 混 请 ， 即 子 类 型 同时 具有 超 类 型 的 值 的 一 个 子 集 和 属性 的 一 个 扩展 集 。 注 意 : 在 整个 这 一 
章 里 ,我 们 使 用 “属性 ”这 个 词 来 作为 “操作 和 约束 ”的 简称 。 
1. 讨论 类 型 继承 的 目的 
为 什么 类 型 继承 问题 值得 探讨 呢 ? 这 至少 有 两 点 原因 : 
m 第 一 ， 子 类 型 与 继承 的 概念 在 现实 世界 中 是 自然 存在 的 ， 而 且 这 种 情形 还 是 会 经 常 碰 到 
的 。 一 个 给 定 类 型 的 所 有 值 具有 某 些 共同 的 属性 ， 而 这 些 值 的 某 些 子 集 具 有 更 多 属于 它们 
自己 的 特定 的 属性 。 这 样 ， 子 类 型 与 继承 看 起 来 是 “为 现实 建 模 ” (modeling reality) (或 
者 像 在 第 14 章 所 说 的 ， 是 “语义 建 模 ” (semantic modeling) 的 一 个 有 用 的 工具 ) 。 
s 第 二 ， 如 果 能 够 识别 出 这 些 模式 ， 即 子 类 型 和 继承 的 模式 ， 并 能 建立 起 识别 方法 ， 把 这 些 
模式 纳入 到 应 用 软件 和 系统 软件 中 ， 我 们 也 许可 以 获得 某 些 实在 的 好 处 。 比 如 ， 一 个 可 以 
应 用 于 椭圆 的 程序 或 许 也 可 以 应 用 于 圆 ， 哪 怕 在 编写 程序 的 时 候 根本 就 没有 考虑 过 关于 圆 
的 问题 (也 许 在 编写 程序 时 类 型 CIRCLE 还 没有 定义 ) ， 这 种 好 处 就 是 代码 重用 。 
尽管 有 上 面 所 说 的 这 些 潜在 的 好 处 ， 但 是 迄今 似乎 还 没有 就 一 个 规范 的 、 严 格 的 、 抽 象 的 类 
型 继承 模型 达成 任何 一 致意 见 。 引 用 参考 文献 [20. 13] 的 话说 就 是 : 
继承 的 基本 概念 非常 简单 …… (而 且 ， 尽 管 ) 它 在 现 有 系统 中 处 于 中 心地 位 ， 继 承 仍然 是 
一 种 有 争议 的 机 制 …… 还 是 没有 【一 个 ) 全 面 的 关于 继承 的 概念 。 
本 章 所 做 的 讨论 是 基于 作者 与 Hugh Darwen 共同 建立 的 模型 ， 该 模型 在 参考 文献 [3.3]" 
中 有 详尽 的 描述 。 因 此 必须 明确 ， 其 他 作者 和 其 他 文章 在 使 用 诸如 “ 子 类 型 ”和 “继承 ”等 概 
念 的 时 候 ， 其 使 用 角度 可 能 与 我 们 所 讨论 的 角度 并 不 一 样 。 
2. 预备 知识 
在 正式 讨论 继承 之 前 ， 先 要 澄清 一 些 基 本 概念 ， 这 些 概念 是 本 小 节 的 主题 。 
a 值 是 有 类 型 的 
在 第 5 音 中 曾 说 过 ， 如 果 v 是 一 个 值 ， 则 可 以 认为 v 带 有 某 种 标志 来 表明 “我 是 一 个 整 
数 ”、“ 我 是 一 个 供应 商号 ”或 “我 是 一 个 贺 ”， 等 等 。 如 果 不 存 在 继承 ， 那 么 一 个 值 只 属 
于 一 种 类 型 。 但 是 如 果 存 在 继承 ， 那 么 一 个 值 就 可 以 同时 属于 多 个 类 型 。 例 如 ， 一 个 给 定 
值 可 以 同时 属于 类 型 ELLIPSE 和 CIRCLE。 
wm 变量 是 有 类 型 的 
每 个 变量 都 有 一 个 声明 的 类 型 ， 比 如 可 以 声明 如 下 一 个 变量 : 


VAR E ELLIPSE ，; 


这 里 变量 的 类 型 声明 为 ELLIPSE。 如 果 不 存 在 继承 ,一 个 给 定 变量 所 能 取 的 值 就 只 属 
于 一 个 类 型 ， 即 该 变量 的 声明 类 型 。 但 是 ， 如 果 存 在 继承 ， 一 个 变量 所 具有 的 值 就 可 能 同 
时 属于 多 个 类 型 。 比 如 ， 变 量 E 的 当前 值 可 能 是 一 个 圆 (同时 也 是 一 个 椭 贺 )， 因 此 这 个 
值 就 同时 属于 类 型 ELLIPSE 和 CIRCLE。 
se 单一 继承 与 多 重 继承 

类 型 继承 主要 有 两 种 情况 : 单一 继承 与 多 重 继承 。 简 单 地 说 ， 单 一 继承 是 指 每 个 子 类 型 只 
有 一 个 超 类 型 ， 从 而 只 继承 一 种 类 型 的 属性 ; 多 重 继承 是 指 一 个 子 类 型 可 以 有 多 个 超 类 
型 ， 并 继承 了 所 有 这 些 类 型 的 属性 。 显 而 易 见 ， 前 一 种 情况 是 后 一 种 情况 的 特例 。 可 是 即 


G@G 文献 中 解释 得 比较 清楚 ， 我 们 并 不 希望 读者 将 我 们 的 模型 仅仅 看 作 是 另 一 个 学 术 练 习 。 但 是 出 二 更 方便 交流 的 
考虑 我 们 提供 这 个 模型 来 填补 这 些 间接 的 不 足 一 一 也 就 是 说 ， 作 为 继承 模型 的 候选 者 应 该 可 以 提供 “继承 全 面 
视图 ”的 缺失 。 








第 20 芋 类 型 继 项 383 


便 是 单一 继承 就 已 经 很 复杂 了 (虽然 这 有 些 让 人 吃惊 ， 但 事实 上 确实 如 此 ) ， 因 此 在 本 章 
中 ， 我 们 只 把 注意 力 放 在 单一 继承 上 ， 我 们 所 说 的 继承 都 是 特 指 单一 继承 。 关 于 单一 继承 
和 多 重 继承 的 详细 讨论 请 见 参考 文献 [3.3]。 
标量 、 元 组 和 关系 继承 
很 明显 继承 既 包 括 标量 值 也 包括 非 标量 值 ， 因为 那些 非 标量 值 最 终 是 由 标量 值 2 构成 的 。 
当然 特别 地 ， 继 承 还 包括 针对 元 组 值 和 关系 值 的 继承 。 但 是 ， 仅 是 标量 继承 就 已 经 相当 复 
杂 了 ， 因 此 在 本 章 中 我 们 只 把 注意 力 集中 在 标量 继承 上 ， 而 我 们 所 说 的 类 型 、 值 以 及 变量 
实际 上 都 是 指标 量 类 型 、 标 量 值 和 标量 变量 。 在 参考 文献 【3.3] 中 有 关于 各 种 继承 的 详 
细 讨 论 ， 包 括 标量 继承 、 元 组 继承 和 关系 继承 。 
结构 继承 与 行为 继承 
标量 值 可 以 拥有 一 个 具有 任意 复杂 度 的 内 部 (物理 ) 结构 或 表现 形式 。 例 如 ， 椭 圆 和 贺 
在 适当 的 情形 下 (这 种 情形 我 们 已 经 知道 ) ， 都 可 以 很 自然 地 被 看 做 标量 值 ， 即 使 它们 的 
内 部 结构 可 能 非常 复杂 。 但 是 ， 其 内 部 结构 对 于 用 户 通常 是 不 可 见 的 。 从 而 当 谈 到 继承 时 
(至少 是 对 于 模型 而 言 )， 其 中 并 不 包括 结构 的 继承 ， 因 为 从 用 户 的 角度 来 看 并 没有 结构 
需要 继承 。 换 句 话 说 ， 我 们 感 兴趣 的 是 所 谓 的 行为 继承 ， 而 不 是 结构 继承 (这 里 的 “ 行 
为 ”是 指 操作 ， 虽 然 约束 也 可 以 继承 ， 至 少 在 模型 中 是 这 样 ) 。 注 意 : 当然 并 不 排除 结构 
继承 ， 只 是 把 它 看 做 一 个 实现 上 的 问题 ， 从 而 与 我 们 的 模型 无 关 。 
“ 子 表 与 父 表 ” 
现在 应 该 清楚 了 ， 继 承 模型 所 关注 的 是 关系 术语 中 所 说 的 域 继承 (再 次 提醒 ， 域 和 类 型 
是 相同 的 东西 )。 但 是 在 关系 范畴 里 谈 到 继承 的 可 能 性 时 ， 大 部 分 人 立刻 会 想到 是 在 讨论 
某 一 类 的 表 继 承 。 例 如 ，SQL 标准 支持 所 谓 的 “ 子 表 与 父 表 ”， 据 此 标准 ，B 可 以 在 继承 
表 4 的 所 有 列 之 后 再 加 上 一 些 自己 的 列 ( 见 第 26 章 ) 。 而 在 我 们 看 来 ,“ 子 表 与 父 表 ”的 
概念 是 一 个 完全 独立 的 现象 ， 虽然 它 同时 也 可 能 是 很 有 意义 的 《尽管 我 们 在 参考 文献 
[14. 13] 中 对 此 表示 了 怀疑 ) ， 但 是 它 在 本 质 上 与 类 型 继承 毫 无 关系 。 

最 后 一 个 要 说 明 的 基本 概念 是 : 类 型 继承 是 一 个 与 所 有 普遍 意义 上 的 数据 都 有 关 的 问题 ， 而 
不 是 仅仅 局 限于 数据 库 中 的 数据 。 因 此 ， 为 了 简单 起 见 ， 本 章 的 大 部 分 例子 是 以 局 部 数据 ( 普 
通 程序 变量 ， 等 等 ) 的 形式 表达 的 ， 而 不 是 数据 库 中 的 数据 。 


20.2 ”类 型 的 层次 结构 


先 给 出 一 个 在 本 章 中 要 用 到 的 例子 。 这 个 例子 包括 一 组 几何 类 型 一 一 PLANE_FIGURE ( 平 
面 图 形 ) 、ELLIPSE 、CIRCLE 、POLYGON (多 边 形 )， 等 等 ， 这些 类 型 组 织 成 一 个 所 谓 的 类 型 
层次 (type hierarchy) ， 或 者 更 一 般 地 讲 ， 一 个 类 型 图 (type graph) 〈 见 图 20-1) 。 这 里 列 出 的 是 
Tutorial D 中 对 于 其 中 一 些 几何 类 型 的 定义 (请 特别 注意 其 中 的 类 型 约束 ): 


TYPE PLANE FIGURE ... ; 


TYPE ELLIPSE 
IS PLANE FIGURE 
POSSREP { A LENGTH, B TY’, CTR POINT 
CONSTRAINT A > B} 


TYPE CIRCLE 
IS ELLIPSE 
CONSTRAINT THE A ( ELLIPSE ) = THE B ( ELLIPSE ) 
POSSREP { R = THE A ( ELLIPSE ) ， 
CTR = THE CTR ( ELLIPSE ) }; 


让 我 们 来 仔细 看 看 这 些 定义 。 首 先 ， 为 了 简 音 起见， 我们 假设 椭圆 总 是 正 向 的 ， 也 就 是 说 它 





@@” 园 想 -下 可知、 标量 意味 着 没有 用 户 可 见 的 组 成 部 分 。 不 要 被 那些 可 能 轮流 拥有 用 户 可 见 组 成 部 分 的 标量 类 现 
所 误导 ， 像 第 5 章 所 说 的 那样 ;那些 组 成 部 分 都 是 可 能 表达 式 的 组 成 部 分 而 不 是 类 型 的 组 成 部 分 一 一 虽然 有 时 
候 我 们 提 到 它们 时 会 将 它们 看 做 类 型 的 组 成 部 分 。 
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的 长 轴 a 总 是 水 平 的 而 短 轴 5b 总 是 垂直 的 。 同 时 长 半 轴 a 总 是 大 于 或 等 于 短 半 轴 5 (也 就 是 说 椭 
辕 是 “ 矮 而 胖 ” 的 而 不 是 “高 而 着 ”的 )。 这 样 ， 椭 贺 就 可 以 用 它 的 半 轴 a 和 5b (以 及 中 心 ) 来 
表示 。 相 对 的 ， 圆 可 以 用 半径 ~ (和 圆心 ) 来 表示 。 
之 后 ， 我 们 观察 到 : 
a 类 型 PLANE_FIGURE 可 能 不 代表 任何 东西 ; 事实 上 ， 随 后 我 们 将 看 到 PLANE_FIGURE 
实际 上 是 一 个 合并 类 型 (union type) 。( 更 准确 地 说 ， 它 是 合并 类 型 中 比较 特殊 的 一 个 类 
型 ， 称 为 虚拟 类 型 。 对 于 虚拟 类 型 的 讨论 超出 本 章 的 讨论 范围 ， 更 详细 的 解释 请 见 参考 文 


献 [3.3]。) 
m 对 于 ELLIPSE 类 型 来 说 ， 我 们 指 写生 一 
ep 


ctrl 来 表示 ， 并 带 有 个 约束 <b， 
注意 ; 为 了 满足 完整 性 ， 我 们 在 之 上 添 
加 一 个 约束 ， 要 求 b 大 于 0。 为 简便 起 
见 ， 这 里 忽略 这 个 约束 。 
a 对 于 CIRCLE 类 型 来 说 ， 我 们 指定 每 个 
辆 都 是 一 个 椭圆 ， 并 定义 一 个 约 东 a = 
b， 在 这 个 约束 下 我 们 可 以 用 {r，ctr| 
来 表示 ,这 里 也 说 明 此 表示 与 椭圆 的 
表示 有 什么 联系 。 说 明 超 类 型 名 在 这 
样 一 个 约束 的 上 下 文中 是 如 何 来 表示 超 类 型 的 任意 一 个 值 的 。 
这 样 系统 就 会 知道 CIRCLE 是 ELLIPSE 的 子 类 型 ， 因此， 普遍 适用 于 椭 贺 的 操作 和 约束 也 
就 相应 适用 于 圆 。 下 面 列 出 的 是 与 上 述 类 型 有 关 的 一 些 操作 的 定义 ; 


OPERATOR AREA (E 让 是 DE A asEA ; 
AREA * 

A 的 名 字 * 

END OPERATOR ; 








图 20-1 一 个 简单 的 类 型 层次 结构 


OPERATOR THE A . ELLIPSE ) RETURNS LENGTH ; 
人“ ” #/ 


a 的 长 
END OPERATOR ; 


OPERATOR THE B ( E ELLIPSE , RETURNS LENGTH ; 
/* « b 的 长 度 ”*/ 
END OPERATOR ;，; 


时 
OPERATOR THE CTR ( E BLLIPSE ) RETURNS POINT ; 
* “中 心 ”*#/ ...;} 
END OPERATOR ; 
OPERATOR THE R ( C CIRCLE ) RETURNS LENGTH ; 
二 长 度 ”*/ ...; 
END OPERATOR : 


除了 THE_R 以 外 ， 所 有 这 些 操作 都 适用 于 属于 ELLIPSE 类 型 的 值 ， 因 此 也 必然 适用 于 属于 CIR- 
CLE 类 型 的 值 。 而 相应 地 ，THE_R 操作 就 只 适用 于 属于 CIRCLE 类 型 的 值 。 

1. 术语 

在 继续 下 面 的 讨论 之 前 ， 我 们 还 需要 介绍 一 些 定义 和 名 词 。 但 是 这 些 概 念 非常 浅显 。 

1) 超 类 型 的 超 类 型 还 是 超 类 型 。 比 如 ，POLYGON 是 SQUARE (正方 形 ) 的 一 个 超 类 型 。 

2) 每 个 类 型 都 是 自己 的 一 个 超 类 型 。 比 如 ，ELLIPSE 也 是 ELLIPSE 的 超 类 型 。 

3) 如 果 4 是 8 的 超 类 型 ， 而 B 是 不 同 于 4 的 类 型 ， 则 4 是 8 的 一 个 真 (proper) 超 类 型 。 
比如 ，POLYGON 是 SQUARE 的 真 超 类 型 。 如 果 4 是 8 的 一 个 真 超 类 型 ， 那么 4 也 是 B8 的 一 个 
真 超 集 一 一 也 就 是 ， 类 型 4 至 少 有 一 个 值 不 是 类 型 B 的 值 。 

类 似 的 说 法 也 适用 于 子 类 型 。 即 : 

4) 子 类 型 的 子 类 型 还 是 子 类 型 。 比 如 ，SQUARE 是 POLYGON 的 一 个 子 类 型 。 
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5) 每 个 类 型 都 是 自己 的 一 个 子 类 型 。 比 如 ，ELLIPSE 也 是 ELLIPSE 的 子 类 型 。 

6) 如 果 B 是 4 的 子 类 型 ， 而 4 是 不 同 于 B 的 类 型 则 B 是 4 的 一 个 真子 类 型 。 比 如 ， 
SQUARE 是 POLYGON 的 真子 类 型 。 如 果 B 是 4 的 一 个 真子 类 型 那么 B 也 必须 是 4 的 一 个 真 
子 集 。 

还 有 : 

7) 如 果 4 是 8 的 超 类 型 ， 而且 不 存在 一 个 类 型 C 既是 4 的 真子 类 型 又 是 8 的 真 超 类 型 ， 则 
4 是 8B 的 一 个 直接 (immediate) 超 类 型 ， 而 B 是 4 的 一 个 直接 子 类 型 。 比 如 ，RECTANGLE 
(和 矩形) 是 SQUARE 的 直接 超 类 型 ， 同 时 SQUARE 是 RECTANGLE 的 直接 子 类 型 。 因 此 要 注意 ， 
在 我 们 的 Tutorial D 的 语法 中 ， 关 键 字 SUBTYPE_OF 的 意思 是 特 指 “是 …… 的 直接 子 类 型 ” 。 

8) 根 (root) 类 型 是 没有 超 类 型 的 类 型 。 比 如 ，PLANE_FIGURE 就 是 一 个 根 类 型 。 注 意 : 
我 们 并 没有 假设 只 有 一 个 根 类 型 。 但 是 ， 如 果 有 两 个 或 多 个 根 类 型 ， 我 们 总 可 以 构造 出 一 个 
“系统 ”类 型 做 为 所 有 这 些 类 型 的 直接 超 类 型 ， 所 以 假设 只 有 一 个 根 类 型 并 不 会 才 失 普遍 性 。 

9) 叶 (leaf) 类 型 是 没有 子 类 型 的 类 型 。 比 如 ，CIRCLE 就 是 一 个 叶 类 型 。 注 意 : 这 样 一 个 
定义 是 有 些 简化 了 的 ， 但 是 对 于 目前 的 讨论 是 足够 了 (要 完全 适合 多 重 继承 ， 它 还 需要 进行 一 
些小 小 的 扩充 [3.3])。 

10) 每 个 真子 类 型 只 有 一 个 直接 超 类 型 。 注 意 : 这 里 要 明确 的 是 我 们 的 假设 只 是 针对 单一 
继承 的 。 如 前 所 述 ， 放 宽 假设 的 情况 在 文献 [3.3] 中 有 详细 讨论 。 

11) 只 要 (a) 至 少 存在 一 个 类 型 ; 而 且 (b) 不 存在 回路 一 一 即 不 存在 一 系列 的 类 型 Tl 、72、 
7T3、…、7n, 使 得 了 是 72 的 直接 超 类 型 ,72 是 73 的 直接 超 类 型 …… 而 Tn 是 71 的 直接 超 类 型 ， 
则 至 少 有 一 个 类 型 必定 是 根 类 型 。 注 意 : 一 定 是 不 可 能 存在 任何 回路 的 。( 为 什么 不 可 能 呢 ?) 

2. 不 相交 假设 

再 做 如 下 一 个 简化 假设 : 如 果 T1 和 72 是 不 同 的 根 类 型 ， 或 者 是 同一 超 类 型 的 不 同 直接 子 类 
型 (尤其 是 指 任何 一 个 都 不 是 另外 一 个 的 子 类 型 ) ， 则 假设 它们 是 不 相交 的 一 一 即 没有 既 属 于 类 
型 T1 又 属于 类 型 72 的 值 。 例 如 ， 没 有 既 属 于 椭圆 又 属于 多 边 形 的 值 存在 。 以 下 接 上 一 小 节 11 
条 的 观点 是 这 一 假设 的 直接 推论 : 

12) 不 同 的 类 型 层次 结构 之 间 是 不 相交 的 。 

13) 不 同 的 叶 类 型 之 间 是 不 相交 的 。 

14) 每 个 值 都 只 有 一 个 最 确切 (most specific) 的 类 型 。 比 如 ， 一 个 给 定 值 也 许 “ 只 是 一 个 
椭 较 ”而 不 是 一 个 圆 ， 这 就 是 说 ， 它 的 最 确切 的 类 型 是 ELLIPSE (在 现实 世界 中 ， 很 多 椭圆 都 
不 是 圆 )。 实 际 上 ， 更 严格 地 说 ， 如 果 某 个 值 v 的 最 确切 类 型 是 了 T， 则 指 v 所属 的 类 型 的 集合 就 
是 了 的 所 有 超 类 型 的 集合 〈 当然 其 中 也 包括 了 本 身 ) 。 

需要 不 相交 假设 的 一 个 原因 是 它 可 以 避免 可 能 出 现 的 多 义 性 。 假 设 某 个 值 v 同时 属于 类 型 
71 和 7， 两 者 都 不 是 对 方 的 子 类 型 。 进 一 步 假设 Tl 定义 了 一 个 叫 Op 的 操作 ， 而 22 也 定义 了 
一 个 叫 Op 的 操作 ， 则 对 v 应 用 Op 操作 就 会 产生 二 义 性 。 

注意 : 不 相交 假设 在 我 们 只 把 注意 力 局 限于 单一 继承 的 时 候 才 是 合理 的 ， 但 是 对 于 多 重 继承 
的 情况 ， 这 一 假设 必须 放宽 。 有 具体 的 讨论 可 以 见 参考 文献 [3.3] 。 

3. 关于 物理 表示 形式 的 一 点 说 阴 

虽然 我 们 主要 关心 的 是 继承 的 模型 而 不 是 继承 的 实现 问题 ， 但 是 为 了 能 够 对 继承 的 整体 概念 
有 一 个 正确 的 理解 ， 必 须 对 特定 的 实现 问题 有 一 定 程 度 的 了 解 。 下 面 就 进行 这 样 一 点 说 明 : 

8 是 4 的 子 类 型 这 一 事实 并 不 能 说 明 ，B 的 值 的 实际 表示 形式 (对 用 户 不 可 见 ) 与 4 的 值 
是 一 样 的 ? 。 比 如 ,椭圆 实 际 上 可 能 是 用 其 中 心 和 半 轴 来 表示 的 ， 而 圆 可 能 是 用 其 圆心 和 半径 来 
表示 的 〈 虽 然 一 般 而 言 ， 实 际 的 表示 形式 并 不 需要 和 任何 已 知 的 可 能 表示 形式 一 样 ) 。 这 一 点 在 


OG ”事实 上 ， 为 什么 相同 类 型 的 所 有 值 都 必须 有 相同 的 物理 表示 并 没有 逻辑 原因 。 例 如 ， 有 些 点 是 用 笛 卡 尔 坐标 来 进 
行 物理 表示 而 有 些 则 用 极 坐 标 表示 ; 有 些 温度 是 用 摄氏 温度 表示 ， 有 些 则 用 华氏 温度 表示 ; 有 些 整数 是 十 进 制 的 
而 有 些 是 二 进 制 的 等 等 。 当 然 ， 系 统 必须 知道 在 这 些 情况 下 该 如 何 转换 这 些 物理 表示 以 实现 配置 、 比 较 等 。 
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下 面 的 许多 小 节 中 都 会 显得 相当 重要 。 
20.3 多 态 性 和 可 置换 性 


这 一 节 研 究 两 个 非常 重要 的 概念 : 多 态 性 和 可 转换 性 。 由 这 两 者 共同 构成 的 基础 ， 可 以 获得 
在 20. 1 节 中 提 到 的 代码 重用 带 来 的 好 处 。 还 必须 明确 一 点 ， 即 这 两 个 概念 实际 上 是 从 不 同 的 角 
度 看 待 同一 件 事情 。 下 面 让 我 们 先 来 看 看 多 态 性 。 

1. 多 态 性 

继承 的 概念 意味 着 ， 如 果 了 是 了 的 一 个 子 类 型 ， 则 所 有 适用 于 了 的 值 的 操作 也 同样 适用 于 
TT 的 值 。 例 如 ， 如 果 AREA (e) 是 合法 的 ， 这 里 e 是 一 个 椭圆 ， 并且 如 果 c 是 一 个 圆 ， 则 AREA 
(c) 也 是 合法 的 。 由 此 就 要 非常 注意 一 个 给 定 操 作 的 参 变量 (parameter) 以 及 它们 的 声明 类 型 
与 调用 该 操作 时 的 相应 参数 (argument) 以 及 它们 的 实际 (最 确切 ) 类 型 之 间 的 差异 。 比 如 ， 
操作 AREA 是 通过 一 个 声明 类 型 为 ELLIPSE 的 参 变 量 来 定义 的 ( 见 20.2 节 ), 但 是 在 调用 中 ， 
AREA (c) 的 参数 的 实际 〈 最 确切 ) 类 型 是 CIRCLE。 

现在 再 次 重申 椭圆 和 圆 可 以 具有 不 同 的 表示 形式 ， 至 少 在 20. 2 节 中 是 这 样 定义 的 : 


TYPE ELLIPSE ... 
POSSREP {A ...,B..., CTR... }，; 


TYPE CIRCLE ... 
POSSREP {R ..., CTR ... }} 
因此 ,很 有 可 能 在 同样 的 形式 下 ，AREA 操作 存在 两 个 不 同 的 版 本 ， 一 个 针对 ELLIPSE 类 型 的 
可 能 表示 形式 ， 一 个 针对 CIRCLE 类 型 的 可 能 表示 形式 。 但 是 仅仅 是 很 和 可 能 一 一 而 不 是 一 定 。 
比如 ，ELLIPSE 类 型 可 以 有 这 样 的 代码 : 


OPERATOR AREA ( FE ELLIPSE ) RETURNS AREA ; 
RETURN ( 3.14159 * THE A (E})* THEBB(E))}); 

END OPERATOR ; 
(椭圆 的 面积 是 rab) 。 显 然 ， 当 由 一 个 圆 而 不 是 一 个 普通 的 椭圆 来 调用 的 时 候 ， 该 代码 也 能 
得 到 正确 的 结果 ， 因 为 对 于 一 个 圆 来 说 ， 操 作 THE_A 和 THE_B 返回 的 都 是 半径 r。 但 也 许 由 
于 各 种 各 样 的 原因 ， 定 义 类 型 CIRCLE 的 人 更 愿意 专门 针对 圆 实现 AREA 的 一 个 版 本 ， 那 就 
是 通过 调用 THE_R 来 代替 对 THE_A 和 THE_B 的 调用 。 注 意 : 事实 上 就 算 表 示 形 式 相同 ， 但 
是 出 于 效率 上 的 考虑 ， 也 可 能 需要 对 同一 个 操作 用 两 个 不 同 的 版 本 实现 。 就 拿 多 边 形 和 撼 形 
来 说 ， 计 算 普 通 多 边 形 面积 的 算法 肯定 也 适用 于 矩形 ， 但 是 对 于 和 矩形 而 言 还 有 一 个 更 有 效 的 
算法 一 一 长 乘 宽 。 

同时 应 该 注意 到 ， 如 果 ELLIPSE 的 代码 是 针对 ELLIPSE 的 实际 表示 形式 而 不 是 可 能 的 表示 
形式 来 写 的 ， 那 么 这 些 代 码 可 能 真 的 无 法 适用 于 圆 ， 因 为 ELLIPSE 和 CIRCLE 的 实际 表示 形式 
是 不 同 的。 通常 ， 针 对 实际 的 表示 形式 实现 操作 并 不 是 一 个 好 主意 ， 编 制 代码 要 保守 一 些 ?。 

无 论 怎样 ， 如 果 不 需要 为 CIRCLE 重 写 AREA 的 代码 ， 我 们 就 实现 了 代码 重用 (对 AREA 
的 实现 而 言 ) 。 注 意 : 在 下 一 小 节 中 我 们 还 将 遇 到 一 种 更 重要 的 “重用 ”。 

当然 从 模型 的 角度 来 看 ，AREA 到 底 有 多 少 个 版 本 并 不 重要 〈 就 用 户 而 言 ， 在 定义 中 只 有 一 
个 AREA 操作 ， 它 既 适 用 于 椭 贺 也 适用 于 加) 。 换 句 话说， 从 模型 的 角度 而 言 ，AREA 是 多 态 
的 : 在 不 同 的 调用 中 它 可 以 引用 不 同类 型 的 参数 。 因 此 必须 切实 地 注意 到 ， 这 种 多 态 性 是 继承 的 
逻辑 推论 : 如 果 采 用 继承 ， 就 必须 接受 多 态 性 ， 否 则 就 不 能 采用 继承 。 

现在 你 也 许 已 经 意识 到 ， 多 态 性 并 不 是 一 个 新 的 概念 ， 事 实 上 我 们 在 第 5 章 就 简单 讨论 过 这 
个 问题 。 比 如 ，SQL 语言 中 就 有 多 态 操作 (“ =”、“ +”、“ | "等 ) ， 事 实 上 大 部 分 其 他 程序 设计 语 
言 也 有 多 态 操作 。 有 些 语言 甚至 允许 用 户 定义 自己 的 多 态 操作 。 比 如 PL/AI 就 通过 所 谓 的 “GE- 





名” 实际 上 ， 我 们 建议 对 物理 表示 的 访问 仅 限于 实现 由 模型 指定 的 操作 符 selector，THE_operators) 的 代码 。 (而 
县 很 多 操作 符 事实 上 都 具有 系统 提供 的 实现 方法 。) 
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NERIC 函数 ”提供 这 样 的 功能 。 但 是 在 前 文 所 述 的 各 个 例子 中 并 没有 实现 任何 的 继承 ， 它 们 都 
是 通常 所 说 的 重 载 多 态 的 例子 。 而 相应 地 ， 操 作 AREA 所 表现 的 多 态 叫 做 包含 多 态 ， 这 是 因为 
椭圆 与 圆 之 间 的 关系 主要 是 集合 之 间 的 包含 关系 【20.4] 。 因 此 ， 在 本 章 的 余下 部 分 里 ， 我 们 都 
用 “多 态 ” 来 表示 包含 多 态 ， 不 使 用 其 完整 的 表述 形式 。 
注意 : 下 面 的 说 明 也 许 有 助 于 了 解 重 载 多 态 与 包含 多 态 之 间 的 区 别 : 
s 重 载 多 态 是 指 许多 不 同 的 操作 具有 相同 的 名 字 。( 而 且 用 户 并 不 需要 知道 这 些 操作 事实 上 
是 不 同 的 ， 同 时 语义 也 不 同一 一 当然 语义 相似 更 好 。) 比如 , “+ ”在 大 部 分 语言 中 都 是 
重 载 的 。( 比如: 一 个 操作 “+ ”用 于 整数 相 加 ， 而 另 一 个 操作 “ + ”用 于 有 理 数 相 加 ， 
等 等 。) 
@ 包含 多 态 是 指 只 有 一 个 操作 ， 但 是 在 同一 个 形式 下 有 多 个 不 同 的 实现 版 本 。( 但 是 用 户 并 
不 需要 知道 是 否 真 的 有 多 个 实现 版 本 。 重 申 一 遍 ， 用 户 只 知道 有 一 个 操作 。) 
2. 利用 多 态 编程 
看 下 面 这 个 例子 。 设 想 我 们 要 写 一 个 程序 来 显示 一 些 由 正方 形 、 椭 圆 以 及 圆 等 构成 的 图 形 。 
如 果 不 用 多 态 ， 代 码 可 能 与 下 面 的 伪 代 码 类 似 : 


FOR EACH x € DIAGRAM 
CASE ; 





WHEN IS SQUARE { x ) THEN CALL DISPLAY SQUARE ... ; 
WHEN IS CIRCLE ( x ) THEN CALL DISPLAY CIRCLE ... ; 


END CASE ; 
(假设 有 诸如 IS_SQUARE、IS_CIRCLE 这 样 的 操作 来 检查 一 个 给 定 的 值 是 否 属于 特定 的 类 
型 ) 。 相 应 地 ， 如 果 采 用 多 态 ， 代 码 就 会 非常 简洁 : 


FOR EACH x € DIAGRAM CALL DISPLAY ( x )}; 


说 明 : DISPLAY 在 这 里 是 一 个 多 态 操作 。 针 对 不 同类 型 了 的 值 ，DISPLAY 的 实现 版 本 会 在 
定义 类 型 7 的 时 候 相 应 地 进行 定义 ， 同 时 告知 系统 。 这 样 在 运行 的 时 候 ， 如 果 系 统 遇 到 了 带 参数 
x 的 DISPLAY 调用 ， 它 必须 识别 出 x 的 最 确切 类 型 ， 然 后 调用 适合 该 类 型 的 DISPLAY 版 本 一 一 
这 是 一 个 动态 联 编 (run-time binding)。 的 过 程 。 换 名 话说， 多 态 实 际 上 是 把 原来 出 现在 用 户 源 
代码 中 的 CASE 表达 式 和 CASE 语句 转移 到 了 统一 的 表示 形式 下 : 系统 实际 上 代替 用 户 执行 了 
CASE 操作 。 

让 我 们 着 重 看 看 维护 上 述 程 序 意味 着 什么 。 举 个 例子 ， 假 如 又 定义 了 一 个 新 类 型 TRIAN- 
GLE (三 角形 ) ， 作 为 POLYGON 的 另外 一 个 直接 子 类 型 ， 那 么 现在 显示 的 图 形 就 又 可 以 包括 三 
角形 了 。 如 果 不 用 多 态 ， 则 每 一 个 如 同上 面 一 样 包含 CASE 表达 式 或 CASE 语句 的 程序 现在 都 必 
须 修改 ， 加 上 如 下 形式 的 代码 : 


WHEN IS_TRIANGLE ( x ) THEN CALL DISPLAY TRIANGLE ... ; 


而 如 果 采 用 多 态 ， 这 样 的 源 代码 修改 就 不 需要 了 。 

像 这 样 的 例子 有 很 多 ， 有 时 候 多 态 性 会 被 形象 地 说 成 是 “让 旧 代 码 调 用 新 代码 ”， 即 一 个 程 
序 P 可 以 有 效 地 调用 某 些 操作 的 版 本 ， 即 使 在 编写 程序 的 时 候 这 些 版 本 还 不 存在 。 所 以 现在 我 
们 有 了 另外 一 个 (也 是 更 重要 的 ) 代码 重用 的 例子 : 即使 在 编写 程序 P 时 类 型 了 并 不 存在 ,，P 
仍然 可 以 应 用 在 属于 了 的 数据 上 。 

3. 可 置换 性 

就 像 前 面 提 到 的 ， 可 置换 性 实际 上 是 从 一 个 稍微 有 些 不 同 的 角度 来 看 待 多 态 性 这 一 概念 。 比 
如 ， 我 们 已 经 看 到 ， 当 e 为 椭 贺 时， 如果 AREA (e) 是 合法 的 ， 则 当 c 为 圆 时 ，AREA (c) 也 
是 合法 的 。 换 名 话说 ， 在 系统 中 任何 可 以 接受 椭圆 的 地 方 ， 都 可 以 用 圆 来 置换 。 更 一 般 地 ， 在 系 





外 ”动态 联 编 是 实现 时 需要 考虑 的 问题 ， 但 不 是 模型 方面 所 要 考虑 的 。 为 了 更 好 地 理解 整个 继承 的 概念 ， 必 须 对 动 
态 联 编 有 一 定 的 了 解 。 
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统 中 任何 可 以 接受 属于 类 型 7 的 值 的 地 方 ， 都 可 以 用 属于 类 型 T' 的 值 来 置换 ， 这 里 的 T' 是 7 的 
子 类 型 。 这 就 是 值 的 可 置换 性 原则 。 

特别 要 注意 的 是 在 这 一 原则 下 ， 如 果菜 个 关系 7 的 属性 4 声明 为 ELLIPSE 类 型 ， 则 r 中 4 的 
值 可 以 属于 类 型 CIRCLE 而 不 仅仅 属于 类 型 ELLIPSE。 类 似 地 ， 如 果 某 个 类 型 了 的 一 个 可 能 的 表 
示 形 式 中 有 一 个 声明 为 ELLIPSE 类 型 的 分 量 C， 那 么 对 于 属于 类 型 了 的 某 些 值 " 而 言 ， 执 行 操作 
THE_C (v) 所 得 到 的 返回 值 可 能 属于 类 型 CIRCLE 而 不 仅仅 属于 类 型 ELLIPSE。 

最 后 ， 我 们 注意 到 ， 既 然 可 置换 性 是 多 态 性 的 另 一 种 表示 ， 则 它 同 样 也 是 继承 的 逻辑 推论 : 
如 果 有 继承 存在 ， 就 必定 要 接受 可 置换 性 ， 否 则 就 没有 继承 。 


20. 4 变量 与 赋值 
假设 有 两 个 变量 已 和 C 分 别 声 明 为 类 型 ELLIPSE 和 CIRCLE。 


VAR E ELLIPSE ; 
VAR C CIRCLE ; 


首先 我 们 用 某 个 圆 初 始 化 C 一 一 比如 (为 了 确切 起 见 ) 是 一 个 半径 为 3、 中 心 在 原点 的 圆 : 


C := CIRCLE ( LENGTH ( 3.0 ), POINT ( 0.0, 0.0 ) ); 


表达 式 右边 是 对 类 型 CIRCLE 的 选择 子 操作 的 调用 。 在 第 5 章 中 曾 说 过 ， 对 于 每 一 种 声明 的 可 能 
表示 形式 都 有 一 个 同名 的 选择 子 操作 ， 该 操作 的 参 变 量 对 应 于 该 表示 形式 的 各 个 分 量 。 选 择 子 操 
作 的 作用 是 允许 用 户 通 过 给 相应 的 表示 形式 的 每 个 分 量 赋值 ， 来 指定 或 者 说 “选择 ”一 个 属于 
该 类 型 的 值 。 注 意 : 为 了 简单 起 见 ， 我 们 这 里 假设 用 笛 卡 尔 表示 的 点 乘 被 称 为 POINT， 而 不 是 
像 第 5 章 所 说 的 CARTESIAN。 例 子 中 CIRCLE 选择 的 第 二 个 参数 作为 点 乘 的 笛 卡 尔 选 择 的 一 个 
调用 。 

现在 考虑 如 下 的 赋值 : 


E := C ); 


一 般 情 况 下 〈 即 不 存在 子 类 型 和 继承 的 情况 下 ) 赋值 操作 要 求 表达 式 左 边 的 变量 与 表达 式 右 
边 指 定 的 值 具有 相同 的 类 型 (对 于 变量 而 言 是 具有 相同 的 声明 类 型 ) 。 但 是 值 的 可 置换 性 原则 
表明 在 系统 中 任何 可 以 接受 属于 类 型 ELLIPSE 的 值 的 地 方 ， 都 可 以 用 一 个 CIRCLE 类 型 的 值 
来 置换 ， 所 以 上 面 的 赋值 是 合法 的 〈 实 际 上 “赋值 ”是 一 个 多 态 操作 ) 。 其 效果 是 从 变量 C 
赋 一 个 圆 的 值 到 变量 EE 中, 而且， 赋值 后 变量 E 的 值 的 类 型 是 CIRCLE 而 不 仅仅 是 ELLIPSE。 
换 句 话说 : 
a 在 给 一 个 声明 类 型 为 非 确 切 (less specific) 类 型 的 变量 赋值 时 ， 什 可 以 保持 其 自身 的 最 确 
切 类 型 。 在 这 类 赋值 中 并 不 出 现 类 型 转换 (在 这 个 例子 中 ， 贺 并 不 被 转换 成 一 个 椭 
圆 )9 。 注 意 ， 我 们 实际 上 并 不 希望 出 现任 何 类 似 的 转换 ， 因 为 这 样 会 让 所 赋 的 值 丢 失 其 最 
确切 行为 ， 对 这 个 例子 而 言 ， 就 是 在 赋值 之 后 我 们 将 无 法 得 到 变量 已 中 圆 的 半径 值 。 注 
意 ; 在 本 节 后 面 的 “类 型 下 移 ” 这 一 小 节 中 将 讨论 取得 半径 所 涉及 的 问题 。 
s 由 此 可 见 ， 可 置换 性 暗示 着 一 个 声明 为 类 型 了 的 变量 可 以 具有 任何 值 ， 只 要 这 个 值 的 最 确 
切 类 型 为 了 的 任意 一 个 子 类 型 。 因 此 ， 必 须 仔 细 区 分 一 个 变量 的 声明 类 型 和 该 变量 ( 当 
前 值 ) 的 实际 类 型 〈 即 最 确切 类 型 ) 之 间 的 区 别 。 在 下 一 小 节 中 我 们 还 要 对 这 个 重要 问 
题 进 行 讨 论 。 
接 下 来 在 这 个 例子 中 ， 假 设 有 另外 一 个 声明 为 AREA 类 型 的 变量 4: 


VAR A AREA ，; 


考虑 如 下 的 赋值 : 





事实 上 ， 贬 间 的 影响 (moment's reflection) 使 得 转化 的 想法 变 得 没有 意义 一 一 也 就 是 说 如 果 转 换 是 可 能 的 ， 那 
么 有 些 值 将 同时 拥有 两 个 最 确切 类 型 。 
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A := AREA (了 ) : 


将 会 产生 如 下 后 果 : 

m 首先 ， 系 统 将 对 表达 式 AREA (E) 执行 编译 时 的 类 型 检查 。 由 于 EE 的 声明 类 型 为 EL- 
LIPSE， 同 时 操作 AREA 的 唯一 参 变 量 的 声明 类 型 也 是 ELLIPSE ( 见 20. 2 节 )， 类 型 检查 
可 以 通过 。 

9 其 次 ， 在 运行 的 时 候 系统 发 现 E 的 当前 最 确切 类 型 是 CRCLE， 因 此 调用 适用 于 圆 的 AR- 
EA 的 版 本 〈 换 名 话说， 系统 执行 了 在 前 面 一 节 讨 论 过 的 动态 联 编 过 程 ) 。 

当然 ， 系 统 实际 调用 的 是 AREA 的 圆 的 版 本 而 不 是 椭圆 的 版 本 ， 用 户 对 此 并 不 关心 一 一 再 次 说 
明 ， 对 于 用 户 而 言 只 有 一 个 AREA 操作 。 

1， 变量 

对 于 声明 类 型 为 T 的 标量 变量 V 来 说 ， 其 当前 值 v 的 最 确切 类 型 可 以 是 7 了 的 任意 子 类 型 。 由 
此 可 见 ， 可 以 用 一 个 形 如 < DT，MST，v > 的 有 序 三 元 组 来 把 V 模型 化 (我 们 也 确实 是 这 样 做 
的 ) ， 其 中 : 

sm DT 是 变量 V 的 声明 类 型 。 

m MST 是 变量 V 的 当前 最 确切 类 型 (意思 是 值 的 最 确切 类 型 就 是 变量 V 的 当前 值 ) 。 

my 是 一 个 属于 最 确切 类 型 MST 的 值 -一 也 就 是 变量 V 的 当前 值 。 

用 符号 DT (了 ) 、MST (V) 和 vv (V) 分 别 代 表 标 量变 量 V 的 声明 类 型 、 当 前 最 确切 类 型 和 
当前 值 。 注 意 到 (a) MST (V) 总 是 DT (V) 的 子 类 型 但 不 必 是 真子 类 型 ，(b) 一 般 来 说 ， 
MST (V) 和 v(V) 是 随 着 时 间 变 化 的 ，(c) 实际 上 MST(V) 是 包含 在 v(V) 中 的 ， 因 为 每 
个 值 只 有 一 个 最 确切 类 型 。 

标量 变量 的 这 个 模型 对 于 明确 各 种 操作 的 精确 语义 是 非常 有 用 的 ， 特 别 是 对 于 赋值 操作 。 在 
进行 详细 盖 述 之 前 ， 首 先 要 说 明 ， 声 明 类 型 和 当前 最 确切 类 型 的 概念 显然 也 可 以 方便 地 扩展 到 任 
意 的 标量 表达 式 上 ， 而 不 仅仅 是 针对 标量 变量 。 设 于 是 这 样 一 个 表达 式 ， 则 : 

m 久 有 一 个 声明 类 型 DT (X) 即 在 XX 最 外 层级 别 上 调用 的 操作 Op 的 声明 类 型 。 

DT (X) 是 在 编译 的 时 候 确定 的 。 

同样 还 有 一 个 最 确切 类 型 MST (X) 一 一 即 v(X) 的 最 确切 类 型 。MST(X) 直到 运行 
的 时 候 才 确 定 。 

现在 我 们 可 以 恰当 地 解释 赋值 了 。 考 虑 赋值 操作 


EE 


(其 中 V 是 一 个 标量 变量 , X 是 一 个 标量 表达 式 ) 。DT (X) 必须 是 DT (Y) 的 子 类 型 ， 否 
则 赋值 操作 是 不 合法 的 (这 是 编译 时 进行 的 检查 ) 。 如 果 赋 值 操作 是 合法 的 ， 其 结果 是 使 得 MST 
(V) 等 于 MST (X)、v (V) 等 于 v (X)。 

顺便 提 一 句 ， 如 果 变 量 V 的 当前 最 确切 类 型 是 T， 则 工 的 每 个 真 超 类 型 也 是 变量 V 的 “当前 
类 型 " 。 比 如 ， 如 果 变 量 巨 (声明 类 型 为 ELLIPSE) 当前 值 的 最 确切 类 型 是 CIRCLE， 则 CR- 
CLE、ELLIPSE 和 PLANE_FIGURE 都 是 已 的 “当前 类 型 ”。 但 是 ， 至 少 是 非 正式 地 ,“X 的 当前 
类 型 ”通常 特 指 MST (X) 。 

2. 对 可 置换 性 的 再 讨论 

考虑 如 下 的 操作 定义 : 


OPERATOR COPY ( E ELLIPSE ) RETURNS ELLIPSE }; 
RETURN ( EE ); 





END OPERATOR ; 


根据 可 置换 性 ，COPY 操作 的 执行 参数 的 最 确切 类 型 是 H LIPSE 或 CRCLE 一 一 无 论 是 哪 一 
种 类 型 ， 其 返回 值 显然 也 会 具有 同样 的 最 确切 类 型 。 由 此 可 见 ， 可 置换 性 的 概念 具有 进一步 的 含 
义 ， 即 〈 一 般 而 言 ) 如 果 定 义 操作 Op 的 返回 值 的 声明 类 型 为 7， 则 执行 操作 Op 得 到 的 实际 结 
果 可 以 属于 了 的 任意 子 类 型 。 换 名 话说， 就 是 〈a) 一 般 情 况 下 ， 引 用 一 个 声明 类 型 为 了 的 变 
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量 ， 实 际 上 得 到 的 可 能 是 了 的 任意 子 类 型 的 一 个 值 ; 所 以 (b) 同样 ， 执 行 一 个 声明 类 型 为 了 的 
操作 ， 实 际 上 返回 的 值 可 能 属于 了 的 任何 一 个 子 类 型 。 

3. 类 型 下 移 

同样 用 上 面 的 例子 : 


VAR E ELLIPSE ; 
VAR C CIRCLE ; 


C ;= CIRCLE ( LENGTH ( 3.0 ), POINT ( 0.0, 0.0 ) ); 
E := CC,;); 

现在 MST(E) 为 CRCLE。 假 设 要 得 到 例子 中 圆 的 半径 ， 并 把 它 赋值 给 变量 L。 我 们 也 许 会 这 

样 做 : 


VAR 工 LENGTH ; 
PP := THER(E),; /* 编译 时 会 出 现 类 型 错误 !!! */ 


但 是 ， 就 像 注释 所 指出 的 ， 上 面 的 代码 在 编译 时 会 出 现 类 型 错误 。 更 确切 地 说 ， 是 由 于 赋值 表达 
式 右 边 的 操作 THE_R ( 取 半 径 ) 需要 一 个 类 型 为 CIRCLE 的 参数 ， 而 参数 E 的 声明 类 型 是 EL- 
LIPSE 而 不 是 CIRCLE。 注 意 : 如 果 编 译 时 不 进行 类 型 检查 ， 则 假如 运行 的 时 候 E 的 当前 值 是 一 
个 椭圆 而 不 是 圆 ， 我 们 会 得 到 一 个 运行 时 的 类 型 错误 ， 这 种 情况 就 更 糟糕 了 。 当 然 ， 对 于 目前 的 
情况 ， 其 实 我 们 知道 运行 时 E 的 值 是 一 个 图 问题 是 我 们 知道 但 是 编译 器 不 知道 。 

为 了 解决 这 类 问题 ， 引 入 一 个 新 的 操作 ， 并 非 正式 地 以 TREAT DOWN (类 型 下 移 ) 来 称呼 
它 。 则 例子 中 获取 半径 的 正确 方法 如 下 : 


L := THE R ( TREAT DOWN AS CIRCLE (BE ) ) ; 


定义 表达 式 TREAT_DOWN_AS_CIRCLE (E) 的 声明 类 型 为 CIRCLE， 这 样 编译 时 的 类 型 检 
查 就 通过 了 。 那 么 在 运行 的 时 候 ; | 
s 如 果 巨 的 当前 值 确实 是 一 个 圆 ， 则 整个 表达 式 正确 地 返回 该 圆 的 半径 。 确 切 地 说 ， 执 行 
TREAT DOWN 会 产生 一 个 结果 ， 比 如 说 是 Z， 则 (a) Z 的 声明 类 型 DT (Z) 等 于 CIR- 
CLE， 因 为 有 形 如 “…_AS_CIRCLE” 的 说 明 ; (b) Z 的 当前 最 确切 类 型 MST (2Z) 等 于 
MST (E) ， 在 这 个 例子 中 同样 是 CIRCLE; (c) Z 的 当前 值 v (2Z) 等 于 v (E); (d) 表 
达 式 “THE_R (Z)” 经 过 计算 给 出 所 要 的 半径 (之 后 被 赋值 给 L) 。 
@ 但 是 如 果 互 的 当前 值 只 是 属于 类 型 ELLIPSE 而 不 是 CIRCLE ， 则 TREAT DOWN 在 运行 时 
会 出 现 类 型 错误 。 
通常 ， 使 用 类 型 下 移 的 目的 在 于 保证 如 果 出 现 运行 时 的 类 型 错误 ， 那么 可 以 肯定 是 在 调用 
TREAT DOWN 的 时 候 出 现 了 错误 。 
注意 : 假设 CIRCLE 有 一 个 真子 类 型 ， 比 如 说 是 O_CIRCLE (“O-circle” 是 指 一 个 圆心 在 原点 
的 圆 ) : 


TYPE O_CIRCLE 
IS CIRCLE 
CONSTRAINT THE CTR ( CIRCLE ) = POINT ( 0.0，0.0 ) 
POSSREP {R= THE | R ( CIRCLE ) } 


则 变量 E 的 最 确切 类 型 在 某 些 时 候 就 可 能 是 O_CIRCLE 而 不 是 CIRCLE。 如 果 是 这 样 ， 则 下 面 的 
TREAT DOWN 操作 


TREAT DOWN AS_CIRCLE ( E) 


就 可 以 成 功 执行 ， 并 生成 结果 ， 比 如 说 是 Z， 并且 (a) 由 于 有 “…_AS_CIRCLE” 的 说 明 ， 
DT (Z) 等 于 CIRCLE; (b) MST (Z) 等 于 O_CIRCLE， 因 为 E 的 最 确切 类 型 是 O_CIRCLE; 
(c) v (Z) 等 于 v(E)。 换 句 话 说 ，TREAT DOWN 总 会 产生 最 确切 类 型 ， 而 不 可 能 “ 问 上 提 
升 ” 类 型 的 层次 。 
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为 了 便于 今后 的 讨论 ， 对 于 操作 调用 TREAT_DOWN_AS_T (X) ， 这 里 给 出 一 个 更 加 规范 的 
语义 说 明 ， 其 中 是 一 个 标量 表达 式 确实 。 首 先 ， 最 重要 的 是 了 必须 是 DT (X) 的 子 类 型 (这 
是 编译 时 进行 的 类 型 检查 ) 。 其 次 ，MST (X) 必须 是 了 的 子 类 型 (这 是 运行 时 进行 的 类 型 检 
查 ) 。 如 果 这 些 条 件 都 得 到 了 满足 ， 调 用 返回 一 个 结果 Z， 并 且 DT (Z) 等 于 7，MST (Z) 等 
于 MST (X), v (Z) 等 于 v (X) 。 注 意 : 参考 文献 [3.3] 也 定义 了 一 个 一 般 形式 的 TREAT 
DOWN， 允 许 将 一 个 操作 数 的 类 型 “下 移 为 ” (be treated down) 另外 的 类 型 ， 而 不 是 某 个 明确 
命名 的 类 型 。 


20.5 约束 特 化 
考虑 调用 如 下 一 个 类 型 为 ELLIPSE 的 选择 子 操作 : 


ELLIPSE ( LENGTH ( 5.0 )，LENGTH ( 5.0 )，POINT ( ..，) ) 


这 个 表达 式 返 回 一 个 半 轴 相等 的 椭圆 。 但 是 ， 在 现实 世界 中 半 轴 相等 的 椭圆 实际 上 是 贺 ， 那 么 这 
个 表达 式 能 否 返 回 一 个 最 确切 类 型 是 CIRCLE 而 不 是 ELLIPSE 的 值 呢 ? 

对 于 类 似 这 一 类 的 问题 在 学 术 界 曾经 (即使 现在 也 是 ) 引起 非常 多 的 争论 。 经 过 仔细 考虑 ， 
我 们 决定 在 自己 的 模型 中 ， 最 好 还 是 让 这 样 的 表达 式 确实 能 够 返回 一 个 最 确切 类 型 为 CIRCLE 的 
值 。 更 一 般 地 ， 如 果 类 型 也 是 类 型 7 的 子 类 型 ， 而 调用 类 型 7 的 一 个 选择 子 操作 会 返回 一 个 满 
足 歼 约束 的 值 ， 则 (在 我 们 的 模型 里 ) 选择 子 操作 的 调用 结果 就 是 一 个 类 型 为 也 的 值 。 注 意 : 
当今 的 商业 系统 几乎 都 没有 在 实现 的 时 候 这 样 做 ， 但 是 我 们 认为 这 正 是 那些 系统 的 失败 之 处 。 参 
考 文献 [3.3] 表明 ， 由 于 这 种 缺陷 ， 这 些 商业 系统 被 迫 支 持 “不 是 圆 形 的 圆 ”、“ 不 是 正方 形 的 
正方 形 ” 以 及 类 似 的 一 些 毫 无 意义 的 东西 ， 但 是 我 们 的 方法 不 会 出 现 这 样 的 后 果 。 注 意 : 同样 
也 可 以 参考 第 26 章 中 第 二 个 重大 失误 中 的 讨论 。 

由 上 述 可 知 ，( 至少 在 我 们 的 模型 里 ) 不 存在 最 确切 类 型 为 ELLIPSE 且 a =4b 的 值 。 换 句 话 
说 ， 最 确切 类 型 为 ELLIPSE 的 值 确切 地 对 应 于 现实 世界 中 的 椭圆 而 不 是 圆 。 与 此 相反 ， 在 其 他 
继承 模型 中 ， 最 确切 类 型 为 ELLIPSE 的 值 对 应 于 现实 世界 中 的 椭圆 ， 但 是 这 些 椭圆 可 能 是 圆 也 
可 能 不 是 加。 由 此 我 们 觉得 我 们 的 模型 作为 “现实 的 一 个 模型 ”更 容易 被 人 接受 。 

像 a=b 的 椭圆 必然 属于 CIRCLE 类 型 这 样 的 概念 在 参考 文献 [3.3] 中 被 称 为 约束 特 化 
( specialization by constraint) ， 但 是 必须 说 明 的 是 ， 其 他 作者 在 使 用 这 个 词 或 与 它 类 似 的 词 时 可 能 
有 完全 不 同 的 含义 (可 见 参考 文献 [20. 10，20. 14] ) 。 

1. 对 THE_ 伪 变量 的 再 次 讨论 

在 第 5 章 中 兽 说 过 ，THE_ 伪 变量 的 作用 是 修改 变量 的 某 个 分 量 ， 同 时 保持 其 他 分 量 不 变 。 
(这 里 的 分 量 是 指 某 种 可 能 表示 形式 的 分 量 ， 而 不 是 实际 表示 形式 的 分 量 。) 比如 ， 变量 已 的 声 
明 类 型 是 ELLIPSE， 其 当前 值 是 一 个 a =5、25 =3 的 椭圆 。 则 赋值 表达 式 : 


?HE B (E) := LENGTH ( 4.0 ); 


将 把 变量 E 的 半 轴 5 改 为 4， 而 保持 半 轴 a 和 中 心 不 变 。 那 么 ， 如 第 5 章 所 说 ， 从 逻辑 上 讲 是 不 
需要 THE_ 伪 变量 的 ， 它 们 只 是 一 种 快捷 的 形式 而 已 。 比 如 ， 上 面 使 用 THE_ 伪 变量 的 赋值 表达 
式 实际 上 可 以 用 下 面 的 表达 式 来 代替 ， 只 是 不 够 简洁 : 


E := ELLIPSE ( THE A ( E ), LENGTH ( 4.0 ), THE CTR (BE ) ) ; 
所 以 考虑 如 下 的 赋值 : 

THE B (EE) := LENGTH ( 5.0 ) ; 
根据 定义 ， 这 个 表达 式 与 下 面 的 表达 式 等 价 : 


E := ELLIPSE ( THE A ( E ), LENGTH ( 5.0 ), THE CTR (BE ) ) 


约束 特 化 在 这 时 就 起 作用 了 ( 因为 表达 式 的 右边 返回 了 一 个 a=。 的 椭 贺 ) ， 则 最 终 效 果 是 赋值 
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以 后 MST (E) 为 CIRCLE 而 不 是 ELLIPSE。 
接 下 来 再 看 看 下 面 的 赋值 操作 : 


THE B (E) := LENGTH ( 4.0 ) ; 


现在 EE 包含 一 个 a=5、b =4 的 椭圆 (和 前 面 一 样 )， 则 MS7 (E) 再 次 变 为 ELLIPSE。 这 是 我 们 
所 说 的 约束 泛 化 (generalization by constraint) 的 效果 。 

注意 : 假设 (如 20.4 节 最 后 一 个 例子 ) CIRCLE 类 型 有 一 个 真子 类 型 O_CIRCLE (“Or-cir- 
cle” 代 表 圆 心 在 原点 的 圆 ): 


TYPE O CIRCLE 
I5 CIRCLE 
CONSTRAINT THE CTR ( CIRCLE ) = POINT ( 0.0， 0.0 ) 
POSSREP { R = THE R ( CIRCLE ) } 


则 变量 E 当前 值 的 最 确切 类 型 在 某 些 时 候 就 可 能 是 0_CIRCLE 而 不 是 CIRCLE。 如 果 是 这 样 ， 那 
么 考虑 下 面 一 系列 的 赋值 操作 ”: 


THEA(E) := LENGTH ( 7.0 
THE-B (E) := LENGTH ( 7.0 


执行 了 第 一 个 赋值 操作 之 后 , E 将 包含 一 个 “真正 的 椭圆 " ， 这 是 约束 泛 化 的 作用 。 在 执行 了 第 
二 个 赋值 操作 之 后 ， 它 又 将 变 回 一 个 圆 。 但 是 将 变 回 一 个 确切 的 O_circle, 还 是 “仅仅 是 一 个 
圆 "? 显然 ， 我 们 希望 它 是 一 个 O_circle。 事 实 也 是 如 此 ， 准 确 地 说 ， 是 因为 它 满足 类 型 O_CIR- 
CLE 的 约束 (包括 从 CIRCLE 类 型 继承 来 的 约束 ) 。 
2. 类 型 转化 的 分 支 问题 
声明 变量 E 的 类 型 为 ELLIPSE。 我 们 已 经 看 到 如 何 将 的 类 型 “下 黎 ”( 比 如 ， 当 EE 目前 最 
确切 类 型 是 ELLIPSE 时 ， 如 何 将 当前 最 确切 类 型 修改 为 CIRCLE); 也 看 到 了 如 何 将 E 的 类 型 
“上 移 ”( 比如 ， 当 EE 当前 最 确切 类 型 是 CIRCLE 时 ， 如 何 将 当前 最 确切 类 型 修改 为 ELLIPSE)。 
但 是 如 何 处 理 类 型 转化 的 “分 支 ” 间 题 呢 ? 假设 我 们 对 例子 中 的 类 型 ELLIPSE 进行 扩展 ， 使 其 
有 CIRCLE 和 NONCIRCLE ( 非 圆 ) 两 个 直接 子 类 型 9 。 无 需 进 行 过 多 细节 上 的 讨论 ， 很 清楚 
地 ,会 有 如 下 的 结果 : 
如 果 EE 的 当前 值 属 于 类 型 CIRCLE ( 即 a=b)， 则 修改 E, 令 a>b, 会 让 MST (E) 变 成 
NONCIRCLE。 
s 如 果 EE 的 当前 值 属 于 类 型 NONCIRCLE ( 即 a>b)， 则 修改 E, 令 a=b, 会 让 MST (E) 
变 成 CIRCLE。 
这 样 ， 约 束 特 化 同样 可 以 解决 类 型 改变 的 分 支 问题 。 注 意 : 很 显然 ， 实 际 上 修改 E 使 得 a<4b 是 
不 可 实现 的 (这 与 类 型 ELLIPSE 的 约束 冲突 )。 


20.6 比较 
两 个 变量 已 和 C 的 声明 类 型 仍然 是 ELLIPSE 和 CIRCLE， 假设 用 C 的 当前 值 给 E 赋值: 
E := C ; 

显然 ， 如 果 现 在 进行 相等 性 比较 
E = C 


得 到 的 结果 应 该 为 “ 真 " ， 事 实 也 确实 如 此 。 一 般 的 规则 如 下 : 假设 X，7Y 为 任意 形式 的 表达 式 ， 
如 果 声 明 类 型 DT (X) 和 声明 类 型 DT (Y) 有 一 个 公共 子 类 型 (就 是 说 其 中 一 个 必须 是 另外 一 
个 变量 的 子 类 型 ) 则 比较 式 X= 了 是 合法 的 ， 否 则 比较 是 不 合法 的 (这 是 编译 时 进行 的 类 型 检查 


); 
)}; 





QO 如果 支持 多 次 分 配 ， 我 们 就 可 以 将 一 个 序列 作为 一 个 单一 的 操作 来 实现 。 
外 ”顺便 提 一 下 ，ELLIPSE 现在 成 为 一 个 合并 类 型 。 见 20.7 节 。 





实现 的 ) 。 如 果 比 较 是 合法 的 ， 并 且 值 ” (X) 等 于 值 v (Y) ， 则 其 返回 结果 是 “ 真 "”， 和 否则 为 
“ 假 ” 。 尤 其 要 注意 的 是 如 果 两 个 值 的 最 确切 类 型 不 同 ， 则 它们 不 能 进行 “相等 性 比较 ”， 因 为 如 
果 v (XX) 等 于 v (7 了)， 那么 MST (X) 就 必须 等 于 MST (了 ) 。 

1. 对 关系 代数 的 影响 

从 第 7 章 可 以 了 解 到 ， 在 关系 代数 的 许多 操作 中 总 会 显 式 或 隐 式 地 及 到 相等 性 比较 ”。 当 涉 
及 超 类 型 和 子 类 型 的 时 候 ， 其 中 某 些 操作 所 表现 出 来 的 状态 可 能 会 让 人 觉得 与 想象 中 有 些 不 一 样 
(至 少 一 眼看 上 去 是 有 些 不 一 样 ) 。 考 虑 如 图 20-2 所 示 的 两 个 关系 RX 和 RY， 可 以 看 到 RX 唯一 
的 属性 4 的 声明 类 型 是 ELLIPSE， 而 相应 地 ， 在 RY 中 4 的 声明 类 型 为 CIRCLE。 如 图 20-2 所 
示 ， 我 们 用 形 如 Ei 的 标识 符 来 表示 不 是 圆 的 椭圆 ， 用 Ci 来 表示 圆 。 最 确切 类 型 用 斜体 表示 。 

现在 考虑 RX 和 RY 的 连接 RJ ( 见 图 20-3)。 
显然 R/ 中 的 每 个 属性 4 的 值 都 必须 属于 类 型 CIR- |** RY 
CLE (因为 对 于 RX 中 任何 属性 4 的 值 ， 其 最 确切 C2 : Eirehs° 3 :cree 
类 型 如 果 是 ELLIPSE 的 话 ， 是 不 能 和 RY 中 属性 4 
的 值 进行 “相等 性 比较 ”的 )。 因 此 你 也 许 会 认 图 20-2 关系 RX 和 RY 
为 RJ 中 属性 4 的 声明 类 型 应 该 是 CIRCLE 而 不 是 
ELLIPSE。 但 是 先 让 我 们 考虑 一 下 下 面 的 问题 : 

@ 既然 RX 和 RY 都 只 有 一 个 属性 4， 则 RX JOIN RY 可 以 简化 成 RX INTERSECT RY。 那 么 在 

这 样 的 情况 下 ， 确 定 JOIN 的 结果 中 属性 的 声明 类 型 的 规则 显然 也 需要 简化 成 INTERSECT 














中 的 类 似 规则 。 

s RX INTERSECT RY 逻辑 上 等 于 RX MINUS (RX MINUS RY)。 设 
第 二 个 操作 一 一 即 RX MINUS RY 的 结果 为 RZ。 则 显然 有 : ™y 
a 一 般 地 讲 ， 某 些 RZ 中 属性 4 的 值 的 最 确切 类 型 为 ELLIPSE,， C2 :circle 


所 以 RZ 中 属性 4 的 声明 类 型 一 定 是 ELLIPSE。 图 20-3 关系 RX 和 
b. 原来 的 表达 式 由 此 就 变 成 了 RX MINUS RZ， 而 在 RX 和 RZ RY 的 连接 RJ 
中 ， 属 性 4 的 声明 类 型 都 是 ELLIPSE。 因 此 得 到 的 最 终结 果 中 ， 
属性 4 的 声明 类 型 显然 又 一 定 成 了 ELLIPSE。 
四 由 此 可 见 ，RX INTERSECT RY 操作 的 结果 中 ， 其 属性 的 声明 类 型 一 定 是 ELLIPSE 而 不 是 
CIRCLE， 因 此 RX JOIN RY 的 结果 也 是 一 样 一 一 即使 是 该 属性 中 的 每 个 值 的 类 型 实际 上 是 
CIRCLE! 
现在 来 看 看 关系 的 差 操作 符 MINUS。 首 先 考虑 RX MINUS RY。 很 明显 ， 该 操作 的 结果 属性 
4 的 某 些 值 是 ELLIPSE 而 不 是 CIRCLE ， 所 以 结果 中 属性 4 的 声明 类 型 也 一 定 是 ELLIPSE。 那 么 
RY MINUS RX 又 怎么 样 呢 ? 显然 ， 这 个 操作 的 结果 中 4 的 每 个 值 都 属于 类 型 CIRCLE， 所 以 很 
自然 地 会 想到 ， 结 果 中 4 的 值 的 声明 类 型 会 是 圆 而 不 是 椭圆。 但 是 可 以 发 现 ，RX INTERSECT 
RY 在 逻辑 上 不 仅 与 RX MINUS ( RX MINUS RY) 等 价 ， 就 像 刚 才 讨 论 过 的 那样 ， 而 且 与 RY MI- 
NUS (RY MINUS RX) 等 价 。 由 此 很 显然 在 RY MINUS RX 的 结果 中 ， 指 定 4 的 声明 类 型 为 CIR- 
CLE 会 引起 矛盾 。 可 见 ， 即 使 是 在 RY MINUS RX 的 情况 下 ， 每 个 属性 值 的 类 型 实际 上 是 CIR- 
CLE，MINUS 操作 的 结果 属性 的 声明 类 型 也 必须 为 ELLIPSE 而 不 是 CIRCLE。 

最 后 来 考虑 RX UNION RY。 通 常 在 这 种 情况 下 ， 结 果 属 性 4 的 某 些 值 的 最 确切 类 型 显然 会 
是 ELLIPSE， 则 结果 属性 4 的 声明 类 型 也 必须 是 ELLIPSE。 这 样 ，UNION 结果 属性 的 声明 类 型 
也 必须 为 ELLIPSE (但 是 就 本 例 情况 而 言 ， 与 JOIN、INTERSECT 和 MINUS 不 同 ，UNION 的 结 
果 在 感觉 上 并 不 违反 常规 。) 

直面 是 一 般 的 规则 : 

9 设 产 与 六 是 具有 公共 属性 4 的 关系 ， 并 且 用 DT (hx) 和 DT (Ahy) 相应 地 代表 4 的 声明 
类 型 。 考 虑 rx 与 ny 的 连接 (当然 是 在 属性 4 上 或 至 少 是 包括 属性 4)。DT (4x) 和 DT 





”比较 实际 上 是 元 组 的 比较 ,但 对 于 当前 的 目的 来 说 ， 我 们 可 以 将 他 们 视 为 简单 的 标量 比较 。 
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(hy) 必须 有 一 个 公共 的 子 类 型 7， 否 则 连接 是 不 合法 的 《这 是 编译 时 进行 的 类 型 检查 ) 。 
如 果 连 接 是 合法 的 ， 结 果 中 属性 4 的 声明 类 型 是 所 有 公共 子 类 型 了 的 最 确切 类 型 。 
类 似 的 分 析 也 适用 于 “并 、 交 、 差 ”操作 。 在 每 种 情况 下 ，(a) 操作 数 的 相应 属性 的 声明 
类 型 中 必须 有 一 个 公共 子 类 型 ; (b) 结果 中 相应 属性 的 声明 类 型 是 所 有 公共 子 类 型 的 最 确 
切 类 型 。 
2. 类 型 检测 
在 20.3 节 中 ， 我们 给 出 了 一 段 带 有 形 如 IS_SQUARE 、IS_CIRCLE 等 操作 的 代码 ， 用 来 检测 
一 个 指定 的 值 是 否 具有 特定 的 类 型 。 现 在 可 以 来 进一步 探讨 这 些 操作 。 首 先 假设 定义 一 个 类 型 了 
会 自动 定义 一 个 如 下 形式 的 判 真 《truth-valued) 操作 


IS T(X) 


如 果 久 属于 类 型 T， 则 返 值 为 真 ， 否 则 为 假 。 例 如 ， 如 果 C 是 一 个 声明 类 型 CIRCLE 的 变量 ， 则 
表达 式 

IS CIRCLE ( C 

IS ELLIPSE ( cl ) 


返回 值 都 是 真 。 如 果 巨 是 声明 类 型 ELLIPSE 的 变量 , 但 是 当前 的 最 确切 类 型 是 CIRCLE 的 某 个 
子 类 型 ， 则 表达 式 


IS CIRCLE (了 ) 


也 返回 真 。 
类 型 检测 还 与 关系 操作 有 关 。 看 看 下 面 这 个 例子 。 关 系 变量 有 一 个 类 型 为 BLLIPSE 的 属 
性 A。 假设 我 们 希望 获得 R 中 所 有 4 的 值 为 加 、 且 半径 大 于 2 的 元 组 ， 则 我 们 也 许 会 这 样 做 ; 


R WHERE THE R (A ) > LENGTH ( 2.0 ) 


但 是 这 个 表达 式 在 编译 的 时 候 会 出 现 类 型 错误 ， 因 为 THE_R 需要 一 个 类 型 为 CIRCLE 的 参数 ， 
但 是 4 的 类 型 为 ELLIPSE 而 不 是 CIRCLE。( 当然 ， 如 果 不 在 编译 时 做 类 型 检查 ， 那 么 假如 在 运 
行 时 遇 到 一 个 元 组 ， 其 中 4 的 值 为 椭圆 而 不 是 贺 的 话 ， 就 会 出 现 运行 时 的 类 型 错误 。) 显然 ,我 
们 需要 做 的 就 是 ， 在 检查 半径 之 前 就 把 4 的 值 是 椭圆 的 元 组 过 滤 掉 。 下 面 的 表达 式 完成 的 就 是 
这 一 功能 : 


R : IS CIRCLE ( A ) WHERE THE R ( A ) > LENGTH ( 2.0 ) 


简单 的 说 ， 这 个 表达 式 是 用 来 返回 4 的 值 为 半径 大 于 2 的 圆 的 元 组 。 更 准确 一 些 ， 它 返回 了 这 样 
一 个 关系 : 

a. 属性 名 称 与 尺 一 样 ， 只 是 结果 中 属性 4 的 类 型 是 CIRCLE 而 不 是 ELLIPSE; 

b. 关系 中 只 包含 来 自 于 RR、 且 4 的 值 的 类 型 是 CIRCLE、 且 半径 大 于 2 的 元 组 。 

换 句 话说 ， 我 们 所 讨论 的 是 一 个 新 的 关系 操作 ， 其 形式 如 下 


R:IST(A) 


其 中 RR 是 关系 表达 式 ，A 是 该 表达 式 所 指 关 系 (比如 说 是 ”) 的 一 个 属性 。 表 达 式 的 所 有 值 定义 
为 一 个 关系 : 

a. 属性 名 称 与 + 一样， 除了 属性 4 的 类 型 在 > 中 为 Ti 

b. 结果 集 是 由 来 自 关系 r、 且 属性 4 的 值 属于 类 型 了 的 元 组 构成 ， 只 是 在 新 关系 中 这 些 元 组 
中 属性 4 的 声明 类 型 为 T。 
形式 用 于 检测 其 中 一 个 操作 符 与 另 一 个 操作 符 是 否 是 相同 类 型 而 不 是 用 于 检测 它 是 否 是 某 个 确切 
的 命名 类 型 。 
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20.7 操作、 版 本 和 签名 


在 20.3 节 中 曾 说 过 ， 一 个 给 定 的 操作 在 相同 的 接口 形式 下 可 以 有 多 个 不 同 的 实现 版 本 (也 
叫做 显 式 特 化 (explicit specialization) ) 。 也 就 是 说 ， 当 顺 着 类 型 层次 结构 从 超 类 型 了 下 淹 到 子 类 
型 7 时 ，( 由 于 各 种 原因 ) 我 们 必须 能 够 针对 T' 重 实现 类 型 了 的 操作 。 举 个 例子 ， 考 虑 下 面 的 
MOVE 操作 : 

OPERATOR MOVE ( E ELLIPSE, R RECTANGLE ) RETURNS ELLIPSE 

VERSION ER MOVE 
RETURN ( EELIPSE ( THE A ( E), THEB(E )， 
RCTR(R))).; 

END OPERATOR ; 
简单 地 说 ， 操 作 MOVE 的 作用 是 “移动 ”一 个 椭圆 ， 使 其 中 心 与 矩形 R 的 中 心 重合 。 或 者 说 得 
更 明确 一 些 ， 它 返回 一 个 与 参数 椭圆 E 一 样 的 椭圆， 只 是 这 个 椭圆 的 中 心 与 参数 矩形 R 的 中 心 
重合 。 注 意 第 二 行 的 VERSION 子 句 ， 它 为 这 个 特定 版 本 的 MOVE ( 见 下 一 段 ) 引 人 了 一 个 不 同 
的 名 字 ER_MOVE。 还 要 注意 的 是 假设 存在 操作 R_CTR ， 其 功能 是 返回 指定 矩形 的 中 心 点 。 

现在 假设 MOVE 为 另 一 个 版 本 ， 即 定义 是 移动 圆 而 不 是 椭圆 ”: 


OPERATOR MOVE ( C CIRCLE, R RECTANGLE ) RETURNS CIRCLE 
VERSION CR MOVE ; 
RETURN ( CIRCLE ( THE R(C),RCTR(R))); 
END OPERATOR ;，; 
通过 类 似 的 方法 ， 还 可 以 得 到 其 他 情况 下 的 显 式 特 化 ， 比 如 参数 的 最 确切 类 型 分 别 是 EL- 
LIPSE 和 SQUARE， 相 应 地 可 以 有 ES_MOVE; 以 及 参数 的 最 确切 类 型 分 别 是 CIRCLE 和 
SQUARE ， 相 应 地 可 以 有 CS_MOVE。 
1， 签名 
简 言 之 ， 签 名 就 是 某 个 操作 的 名 字 和 该 操作 的 操作 数 类 型 的 结合 体 。 ( 顺便 提 一 下 ， 不 同 的 
作者 和 不 同 的 语言 对 这 个 词 会 有 一 些 稍微 不 同 的 解释 。 比 如 ， 结 果 类 型 有 时 候 会 被 认为 是 签名 的 
一 部 分 ， 而 操作 数 和 结果 的 名 字 有 时 候 也 是 如 此 )。 但 是 ， 我 们 还 是 要 再 认真 地 回顾 一 下 : 
a) 参数 和 参 变量 ， 
b) 声明 类 型 和 最 确切 类 型 ; 
c) 用 户 所 见 的 操作 符 和 系统 所 见 的 操作 符 (是 指 就 像 上 面 所 提 到 的 在 接口 形式 下 那些 操作 
的 实现 版 本 ) 之 间 的 区 别 。 
实际 上 ， 虽 然 从 文字 上 经 常 区 分 不 开 ， 但 是 ， 对 于 一 个 给 定 的 操作 符 Op， 我 们 至 少 可 以 区 
分 出 三 种 不 同 的 签名 ， 单 个 的 描述 签名 ， 一 组 版 本 签名 和 一 组 调用 签名 ， 如 下 所 示 : 
5 单个 的 描述 签名 (specification signature) 由 两 部 分 构成 ， 一 部 分 是 操作 的 名 字 Op， 另 一 
部 分 是 Op 的 参 变量 的 声明 类 型 ， 它 们 按照 定义 Op 时 提供 给 用 户 的 顺序 排列 。 这 个 签名 
对 应 于 用 户 所 接受 的 操作 Op。 比 如 MOVE 的 具体 签名 就 是 MOVE (ELLIPSE, RECTAN- 
GLE) 。 
注意 ; 参考 文献 [3.3] 中 认为 应 该 区 分 一 个 给 定 操作 符 的 描述 签名 的 定义 和 该 操作 符 所 有 
实现 版 本 的 定义 。 基 本 思想 是 要 支持 合并 类 型 ，( 也 被 理解 为 “抽象 ”或 “ 非 实例 化 ”类 型 ， 或 
者 有 时 候 被 认为 是 “接口 "。) 也 就 是 说 ， 合 并 类 型 根本 不 是 任何 值 的 最 确切 类 型 。 这 样 的 类 型 
提供 了 一 个 确定 操作 符 的 方式 ， 应 用 于 若干 个 不 同 规则 的 类 型 上 ， 而 这 些 不 同 规则 的 类 型 都 是 合 
并 类 型 的 子 类 型 。 那 么 这 个 操作 符 的 实现 版 本 就 可 定义 为 这 些 规 则 子 类 型 。 用 前 面 提 到 的 例子 来 
说 明 ，PLANE_FIGURE 是 一 个 合并 类 型 ，AREA 操作 符 的 描述 签名 应 定义 在 PLANE_FIGURE 
级 ， 显 式 实现 版 本 定义 为 ELLIPSE 类 型 ， 对 于 类 型 POLYGON 也 是 如 此 。 
a 对 应 于 Op 的 每 个 实现 版 本 都 有 一 个 版 本 签名 (version signature) ， 它 由 操作 Op 的 名 称 和 





”实际 上 在 这 个 特殊 的 例子 中 定义 这 样 一 个 版 本 并 没有 什么 意义 。( 为 什么 ?) 
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该 版 本 参 变 量 的 声明 类 型 构成 ， 声 明 类 型 是 按照 定义 的 顺序 排列 的 。 这 些 签名 对 应 于 Op 
实现 代码 的 不 同 部 分 。 比 如 ， 对 于 MOVE 来 说 ， 版 本 CR_MOVE 的 版 本 签名 是 MOVE 
(CERCLE，RECTANGLE ) 。 

sa 各 个 参数 的 最 确切 类 型 的 所 有 可 能 的 组 合 都 对 应 一 个 调用 签名 (invocation signature) ， 操 

作 符 的 每 个 参数 都 可 以 有 若干 个 最 确切 类 型 ， 它 由 操作 Op 的 名 称 加 上 参数 最 确切 类 型 的 
某 种 组 合 情 况 一 起 构成 。 类 型 是 按照 定义 的 顺序 排列 的 。 这 些 签名 对 应 于 Op 的 各 种 可 能 
的 调用 情况 ( 当然 这 种 对 应 是 一 对 多 的 ， 即 一 个 调用 签名 可 以 对 应 多 个 不 同 的 调用 ) 。 比 
如 , 设 E 和 R 的 最 确切 类 型 分 别 是 CIRCLE 和 SQUARE， 则 对 于 MOVE 的 调用 MOVE 
(E，R) 来 说 ， 调 用 签名 是 MOVE (CIRCLE, SQUARE)。 

因此 ， 同 一 个 操作 的 不 同调 用 签名 与 该 操作 的 不 同 实现 版 本 相对 应 。 这 样 ， 如 果 同 一 个 操作 
符 的 接口 下 确实 存在 着 多 个 版 本 ， 则 在 某 一 特定 情况 下 要 调用 哪 一 个 版 本 取决 于 哪 一 个 的 版 本 签 
名 和 应 用 的 调用 签名 “最 匹配 " 。 决 定 是 否 最 匹配 的 过 程 ， 即 决定 调用 哪 一 个 版 本 的 过 程 是 一 个 
动态 联 编 的 过 程 ( 见 20. 3 节 ) 。 

顺便 要 注意 的 是 : (a) 描述 签名 是 一 个 真正 属于 模型 的 概念 ; (b) 版 本 签名 仅仅 是 一 个 属 
于 实现 的 概念 ; (c) 虽然 从 某 个 角度 上 说 调用 签名 是 一 个 属于 模型 的 概念 ， 但 是 和 可 置换 性 一 
样 ， 实 际 上 它 首先 是 类 型 继承 的 一 个 直接 的 逻辑 推论 。 有 可 能 存在 不 同 的 调用 签名 这 一 事实 其 实 
只 是 可 置换 性 概念 的 一 部 分 。 

2. 只 读 操作 与 更 新 操作 

迄今 为 止 ， 我 们 一 直 默 认 MOVE 是 一 个 只 读 操作 ， 但 是 假设 现在 把 它 作为 一 个 修改 
操作 : 

OPERATOR MOVE ( E ELLIPSE, R RECTANGLE ) UPDATES E 

VERSION ER_MOVE ; 
THE CTR (E) := RCIR (R) ; 

END OPERATOR ; 

(注意 ， 只 读 操 作 和 修改 操作 有 时 候 分 别 被 叫做 观察 子 (observer) 和 变异 子 ( mutator)。 如 
果 你 需要 搞 清楚 这 两 者 之 间 的 差异 ， 请 参阅 第 5 章 。) 

现在 可 以 看 到 ， 调 用 这 个 版 本 的 MOVE 会 修改 它 的 第 一 个 参数 (简单 地 说 是 改变 了 该 参数 
的 中 心 ) 。 进 一 步 还 可 以 发 现 ， 无 论 第 一 个 参数 的 最 确切 类 型 是 ELLIPSE 还 是 CIRCLE， 修 改 都 
会 起 作用 ， 换 名 话说， 对 于 圆 ， 是 不 需要 显 式 实现 版 本 的 9? 。 因 此 ， 一 般 而 言 ， 修 改 操作 的 好 处 
之 一 就 在 于 它 可 以 不 必 有 明确 地 编写 某 些 操作 特 化 。 尤 其 是 对 程序 维护 具有 特别 的 意义 ， 比 如 ， 如 
果 引 和 O_CIRCLE 作为 CIRCLE 的 子 类 型 会 出 现 什 么 情况 呢 ? (答案 是 : 可 以 激活 带 有 一 个 声明 
类 型 为 ELLIPSE 或 CIRCLE 的 参 变量 的 MOVE， 而 当前 的 最 确切 类 型 0_CIRCLE 尚未 定义 完全 。 
但 是 一 般 来 说 ， 不 能 激活 带 有 一 个 声明 类 型 为 O_CIRCLE 的 参 变 量 的 MOVE ) 。 

3. 改变 操作 的 语义 

当 我 们 顺 着 类 型 层次 结构 下 澜 时， 对 于 操作 的 重 实现 可 以 是 合法 的 ， 这 一 事实 有 一 个 非常 严 
重 的 后 果 : 它 可 能 改变 操作 的 语义 。 比 如 ， 就 AREA 而 言 ， 可 能 会 出 现 这 种 情况 ， 类 型 CIRCLE 
的 实现 版 本 实际 上 返回 的 是 圆周 长 而 不 是 圆 面积 (细致 的 类 型 设计 可 以 有 助 于 在 某 种 程度 上 组 
和 这 一 问题 。 如 果 操 作 AREA 的 返回 类 型 被 定义 为 AREA 类 型 ， 显 然 执行 是 不 可 能 返回 一 个 
LENGTH 类 型 的 结果 ,但 是 它 仍 然 可 能 返回 一 个 错误 的 面积 值 !) 。 

这 种 情况 虽然 看 起 来 有 些 让 人 吃惊 ， 甚 至 会 有 人 说 (实际 上 已 经 有 人 提出 了 ) 这 种 方式 的 
语义 改变 是 值得 的 。 比 如 ， 设 类 型 TOLL_HIGHWAY 是 类 型 HGHWAY 的 真子 类 型 ， 而 操作 
TRAVEL_TIME 的 作用 是 计算 在 指定 的 高 速 公路 上 通过 指定 两 点 之 间 的 行进 时 间 。 对 于 要 征收 过 
路 费 的 高 速 公路 来 说 ， 计 算 公 式 是 (d/s) + (n*1)， 其 中 d= 距离 ，s = 速度 ,n= 收费 站 的 数 
目 、t= 在 收费 站 停留 的 时 间 。 对 于 不 收费 的 高 速 公路 ， 计 算 公 式 则 相应 地 为 d/s。 





@ 正如 20.7 节 第 1 个 例子 的 脚注 所 标注 的 ， 在 只 读 的 情况 下 并 不 真正 需要 版 本 一 一 我 们 这 里 的 介绍 仅仅 是 为 了 
举例 。 
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再 举 一 个 反例 ， 即 不 欢迎 语义 改变 的 情况 的 例子 ， 再 次 考虑 椭圆 和 圆 。 应 该 说 我 们 希望 操作 
AREA 的 定义 对 于 同一 个 圆 应 该 能 够 返回 同一 个 面积 值 ， 无 论 它 是 一 个 圆 还 是 一 个 椭圆 。 假 设 顺 
序 发 生 如 下 的 事情 : 

1) 定义 类 型 ELLIPSE 及 相应 版 本 的 AREA 操作 。 为 简单 起 见 ， 设 在 AREA 的 代码 中 并 没有 
使 用 椭圆 的 实际 表示 形式 。 

2) 定义 类 型 CIRCLE 为 类 型 ELLIPSE 的 子 类 型 ， 但 是 还 没有 针对 图 定义 一 个 AREA 操作 的 
单独 实现 版 本 。 

3) 对 于 某 个 特定 的 圆 c 调用 AREA ， 得 到 结果 al ， 调 用 的 是 ELLIPSE 版 本 的 AREA 因为 它 
是 目前 唯一 存在 的 版 本 。 

4) 现在 针对 圆 定义 一 个 AREA 操作 的 单独 实现 版 本 。 

5) 对 于 同一 个 圆 c 再 次 调用 AREA， 得 到 结果 a2 (而 这 一 次 调用 的 是 CIRCLE 版 本 的 
AREA) 。 

在 这 一 点 上 ， 我 们 肯定 要 求 “应 该 有 ”2 = al, 但 是 这 一 “应 该 有 ”的 要 求 并 不 是 强制 
的 。 即 像 已 经 说 过 的 那样 ， 有 可 能 针对 圆 的 AREA 的 实现 版 本 会 返回 一 个 周 长 而 不 是 面积 ,或 
是 返回 一 个 错误 的 面积 值 。 

让 我 们 再 回 到 TRAVEL_TIME 的 例子 。 事 实 上 ， 我 们 发 现 这 个 例子 以 及 类 似 的 例子 是 相当 
让 人 无 法 信服 的 一 一 即 无 法 让 人 相信 在 例子 所 展现 的 情况 下 ， 改 变 一 个 操作 的 语义 可 以 被 认为 是 
有 必要 的 。 考 虑 下 面 内 容 : 

m 如 果 TOLL_HIGHWAY 确实 是 HIGHWAY 的 一 个 子 类 型 ， 这 意味 着 根据 定义 ， 每 一 条 独 

立 的 收费 高 速 公路 首先 是 一 条 高 速 公路 。 

am 因此 ， 某 些 高 速 公路 〈 即 某 些 HGHWAY 类 型 的 值 ) 实际 上 是 收费 高 速 公路 一 一 路 上 有 
收费 站 。 所 以 HIGHWAY 类 型 并 不 是 “没有 收费 站 的 高 速 公 路 ”， 而 是 “可 以 及 个 收费 
站 的 高 速 公路 ”(n 可 以 等 于 零 )。 

a 故而 类 型 HIGHWAY 的 操作 TRAVEL_TIME 并 不 是 “计算 在 一 条 没有 收费 站 的 高 速 公路 
上 的 行进 时 间 ”， 而 是 “计算 忽略 了 收费 站 后 在 一 条 高 速 公路 上 的 行进 时 间 ws”。 

s 相应 地 ， 类 型 TOLL_HIGHWAY 的 操作 TRAVEL_TIME 是 “在 不 忽略 收费 站 的 情况 下 ， 
计算 在 一 条 高 速 公 路 上 的 行进 时 间 (ds) + (n*1)”。 所 以 实际 上 这 两 个 TRAVEL _ 
TIME 在 逻辑 上 是 不 同 的 操作 。 由 于 这 两 个 不 同 的 操作 具有 相同 的 名 字 ， 这 样 就 会 产生 混 
请 。 实 际 上 在 这 里 我 们 引入 了 “ 重 载 多 态 ”而 不 是 “包含 多 态 ” 。 (需要 说 明 的 是 : 在 实 
七 中 还 会 有 进一步 的 混淆 ， 因 为 非常 遗憾 的 是 在 谈 到 包含 多 态 的 时 候 许 多 作者 实际 使 用 的 
却 总 是 “ 重 载 ” 这 个 词 。) 

总 而 言 之 ， 改 变 操 作 的 语义 并 不 是 一 个 好 的 想法 。 像 我 们 已 经 看 到 的 那样 ， 这 种 要 求 不 是 强 
制 的。 但 是 我 们 当然 可 以 定义 自己 的 继承 模型 我 们 也 确实 这 样 做 了 ， 在 模型 中 如 果 出 现 语义 被 改 
变 的 情况 ， 则 执行 过 程 是 不 合法 的 〈 即 该 执行 过 程 是 不 属于 继承 模型 的 ， 其 含义 是 不 可 预知 
的 ) 。 应 该 注意 到 ， 我 们 对 于 这 一 问题 的 立场 ( 即 语义 改变 是 不 合法 的 ) 确实 是 有 好 处 的 ， 无 论 
给 定 操 作 Op 是 否定 义 了 任何 显 式 特 化 ， 用 户 的 感觉 都 是 一 样 的 ， 也 就 是 : (a) 只 存在 一 个 操 
作 ， 一 个 唯一 的 操作 叫做 Op; (b) 该 操作 对 于 属于 某 个 特定 类 型 7 的 参数 值 有 效 ， 因 此 ， 根 据 
定义 对 于 属于 了 的 真子 类 型 的 参数 值 也 有 效 。 


20.8 圆 是 椭圆 吗 


圆 是 椭圆 吗 ?” 到 现在 为 止 我 们 在 本 章 中 都 假设 (并 以 充分 的 理由 假设 ) 是 。 但 是 现在 我 们 
必须 面 对 这 样 一 个 事实 ， 这 种 观点 在 学 术 界 有 很 多 争论 [20.6]。 考 虑 我 们 常用 的 变量 E 和 C， 
其 声明 类 型 分 别 为 ELLIPSE 和 CIRCLE。 假 设 这 些 变量 做 了 如 下 的 初始 化 : 

E := ELLIPSE ( LENGTH ( 5.0 ), LENGTH ( 3.0 

POINT ( 0.0, 

C := CIRCLE ( LENGTH ( 5.0 ), POINT ( 0.0 


)s 
0.0 ) ) 》 
0.0 ) ); 


ibid 
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特别 要 注意 到 的 是 THE_A (C) 和 THE_B (C) 的 值 现在 都 是 5。 
现在 我 们 肯定 可 以 对 E 做 的 一 个 操作 是 “修改 半 轴 a”， 比 如 : 


THE A(E) := LENGTH ( 6.0 ); 
但 是 如 果 我 们 要 对 C 执行 类 似 的 操作 
THE A(C) := LENGTH ( 6.0 ) ; 


就 会 出 错 ! 到 底 是 什么 错误 呢 ? 让 我 们 来 看 看 ， 如 果 确 实 进行 了 修改 ， 则 变量 C 将 不 再 包 
含 一 个 “ 圆 " ， 这 与 圆 的 约 东 a =5b 冲突 (a 现在 是 6, 而 5 应 该 还 是 5， 因 为 我 们 还 没有 对 
其 进行 修改 ) 。 换 名 话说 ，C 现在 将 包含 一 个 “ 非 圆 形 的 圆 ”， 从 而 与 类 型 CIRCLE 的 类 型 
约束 冲突 。 

既然 “ 非 圆 形 的 圆 ”与 逻辑 和 通常 的 感觉 相 冲突 ， 那 么 首先 不 允许 进 行 这 种 修改 看 起 来 是 
合理 的 。 明 显 的 方法 是 在 编译 的 时 候 拒绝 这 种 操作 ， 即 进行 这 样 的 定义 ， 对 于 半 轴 4 或 b 的 修改 
(赋值 ) 是 不 合 语法 的 。 换 名 话说， 对 于 THE_A 和 THE_B 的 赋值 不 适用 于 类 型 CIRCLE， 而 尝 
试 进行 这 种 修改 会 因为 编译 时 的 类 型 错误 而 失败 。 

注意 : 实际 上 这 种 赋值 显然 是 不 合 语法 的 ， 我 们 曾 说 过 ， 对 THE_ 伪 变量 的 赋值 实际 上 是 一 
种 缩写 。 比 如 对 THE_A (C) 的 赋值 ， 如 果 是 合法 的 话 ， 将 是 类 似 如 下 形式 的 表达 式 的 缩写 : 


C := CIRCLE ( ... ); 


于 是 表达 式 右边 的 CIRCLE 选择 子 操作 调用 会 包括 一 个 值 为 LENGTH (6.0) 的 THE_A 参数 ， 
但 是 CIRCLE 选择 子 操作 需要 的 不 是 THE_A 参数 ， 而 是 THE_R 参数 和 THE_CTR 参数 。 所 以 原 
来 的 赋值 显然 是 不 合法 的 。 
1. 改变 语义 会 发 生 什么 
为 了 维护 这 样 的 概念 即 对 于 圆 而 言 ， 对 THE_A 和 THE_B 的 赋值 还 是 合法 的 ， 常 常会 提出 
如 下 的 想法 ， 即 如 果 参 数 是 一 个 圆 ， 对 于 如 THE_A 的 赋值 应 该 重新 定义 一 一 换 句 话说 ， 要 显 式 
特 化 一 一 也 就 是 在 这 种 情况 下 也 要 同时 对 THE_B 赋值 ， 这 样 ， 这 个 圆 在 修改 之 后 仍然 满足 a=b 
的 约束 。 但 是 这 种 想法 是 我 们 要 立即 阻止 的 。 之 所 以 反对 这 一 想法 ， 至 少 是 基于 以 下 三 个 原因 : 
e 首先 ， 对 THE_A 和 THE_B 赋值 的 语义 在 继承 模型 里 不 可 以 用 上 面 所 说 的 方式 进行 改变 
(这 是 非常 慎重 地 规定 的 ) 。 
a 其 次 ， 即 使 模型 没有 规定 这 些 语义 ,但 是 我 们 已 经 说 明 : (a) 通常 随意 改变 一 个 操作 的 
语义 是 一 个 不 好 的 想法 ，(b) 像 这 样 去 改变 一 个 操作 的 语义 还 会 产生 副作用 ， 就 更 不 好 
了 。 保 持 一 个 操作 的 效果 正好 能 够 满足 要 求 ， 这 是 一 个 很 好 的 普遍 性 原则 。 
m 第 三 ， 也 是 最 重要 的 。 退 一 步 讲 ， 能 够 像 上 面 所 说 的 那样 进行 语义 改变 的 机 会 也 并 不 
是 总 能 有 的 。 比 如 ， 设 类 型 ELLIPSE 有 另外 一 个 直接 子 类 型 NONCIRCLE; 同时 对 于 
“ 非 圆 形 ” 有 约束 a >b; 对 于 一 个 非 圆 形 的 THE_A 操作 的 赋值 会 使 得 a = bp。 那么 对 于 
这 一 赋值 来 说 ， 其 合适 的 语义 重 定义 又 是 什么 呢 ? 准确 地 说 ,产生 什 么 样 的 副作用 是 
合适 的 呢 ? 
2. 一 个 合理 的 模型 是 否 确实 存在 
现在 面临 这 样 一 种 状况 ， 即 对 THE_A 和 THE_B 的 赋值 操作 普遍 适用 于 椭圆 却 并 不 特定 地 
适用 于 圆 。 但 是 : 
a) 类 型 CIRCLE 被 假设 为 类 型 ELLIPSE 的 子 类 型 ; 
b) 类 型 CIRCLE 是 类 型 ELLIPSE 的 子 类 型 意味 着 ， 普 遍 适 用 于 椭圆 的 操作 也 特定 地 适用 于 
圆 一 一 换 句 话说 ， 操 作 是 被 继承 的 。 
c) 但 是 我 们 现在 却说 对 THE_A 和 THE_B 的 赋值 操作 没有 被 继承 下 来 。 
这 样 我 们 不 是 自 相 矛盾 了 吗 ? 现在 该 怎么 办 ? 
在 回答 这 些 问题 之 前 ， 先 要 强调 一 下 这 一 问题 的 严肃 性 。 前 面 的 讨论 看 起 来 真 的 像 一 个 引线 
( threadpuller) 。 因 为 ， 如 果 类 型 CIRCLE 没有 从 类 型 ELLIPSE 继承 这 个 操作 ， 那 我 们 又 赁 什么 说 
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一 个 圆 “是 ”一 个 椭圆 呢 ? 如 果 某 些 操 作 事实 上 最 终 无 法 得 到 继承 ， 那 么 “继承 ”还 能 成 立 吗 ? 
一 个 合理 的 继承 模型 确实 存在 吗 ? 我 们 试图 找到 这 样 一 个 模型 是 不 是 就 成 为 了 一 种 幻想 ? 

注意 : 一 些 作者 确实 提出 (郑重 地 提出 ) 对 THE_A 的 赋值 对 于 圆 和 椭圆 都 应 该 有 效 (对 于 
一 个 圆 而 言 ， 它 修改 的 是 半径 ) ， 而 对 THE_B 的 赋值 只 对 于 椭圆 有 效 ， 所 以 事实 上 ELLIPSE 应 
该 是 CIRCLE 的 子 类 型 ! 换 名 话说， 我 们 把 类 型 的 层次 结构 颠倒 过 来 了 。 但 是 ， 只 要 稍微 动 动脑 
子 ， 就 足以 发 现 这 种 想法 是 不 可 能 实现 的 ， 特 别 是 可 置换 性 将 会 被 破坏 (一 个 一 般 意 义 下 的 椭 
圆 ， 它 的 半径 是 什么 ?) 。 

恰恰 是 上 面 的 那些 想法 使 得 某 些 作者 得 出 结论 ， 一 个 合理 的 继承 模型 是 没有 的 ( 见 本 章 结 
尾 “ 参 考 文献 和 简介 ”中 参考 文献 【20.2] 的 注释 ) 。 另 一 些 作 者 则 提出 了 一 些 继承 模型 ， 这 些 
模型 具有 不 合 常理 的 或 是 不 必要 的 特征 与 功能 。 比 如 ，SQL 允许 有 “ 非 圆 形 的 圆 ”以 及 其 他 一 
些 训 无 意义 的 概念 ， 参 考 20. 10 节 。( 事 实 上，SQL 根本 不 支持 类 型 约束 。 而 允许 出 现 那 些 毫 无 
意义 的 概念 的 原因 ， 就 是 对 这 种 约束 的 省 略 ， 见 20. 10 节 )。 

3. 解决 办 法 

小 结 一 下 讨论 到 现在 的 情况 ， 发 现 我 们 面临 以 下 的 难题 : 

如 果 圆 从 椭圆 那里 继承 了 “向 THE_A 和 THE_B 赋值 ”的 操作 ， 则 我 们 会 得 到 非 圆 形 

的 圆 。 

me 防止 出 现 非 圆 形 的 圆 的 办 法 是 支持 类 型 约束 。 

e 但 是 如 果 支 持 类 型 约束 ， 则 上 面 的 操作 无 法 得 到 继承 。 

e 所 以 最 后 没有 继承 存在 ! 
怎样 解决 这 一 难题 ? 

出 路 在 于 一 一 就 像 经 常 提起 的 那样 一 一 要 认 清 这 样 一 个 事实 (并 按 这 一 事实 去 处 理 问 题 )， 
即 值 与 变量 之 间 在 逻辑 上 存在 着 很 明显 的 区 别 。 在 说 “每 个 圆 都 是 一 个 椭圆 ”的 时 候 ， 更 准确 
地 说 ， 我 们 的 意思 是 如 果 一 个 值 是 圆 ， 那 它 也 是 一 个 椭圆 的 值 ; 而 不 是 说 每 一 个 轩 的 变量 也 是 一 
个 椭圆 的 变量 ( 即 一 个 声明 类 型 为 CIRCLE 的 变量 不 可 以 是 一 个 声明 类 型 为 ELLIPSE 的 变量 ， 
而 且 也 不 能 包含 一 个 确切 类 型 属于 ELLIPSE 的 值 ) 。 换 句 话 说， 继承 只 适用 于 值 ， 不 适用 于 变 
量 。 比 如 ， 对 于 椭圆 和 圆 来 说 : 

a 一 个 值 是 圆 ， 那 它 也 是 一 个 椭圆 。 

e 所 有 适用 于 椭圆 的 、 对 值 的 操作 也 适用 于 圆 。 

s 但 对 于 任何 值 都 不 能 做 的 事 就 是 改变 它 ! 如 果 可 以 改变 它 ， 它 就 不 再 是 原来 的 那个 值 

了 (当然 ， 我 们 可 以 通过 修改 一 个 变量 来 “改变 变量 的 当前 值 ”， 但 是 一 一 重申 一 遍 一 一 
不 能 以 同样 的 方式 改变 一 个 值 ) 。 

现在 ， 准 确 地 说 ， 适 用 于 椭圆 的 值 的 操作 是 针对 类 型 ELLHPSE 定义 的 只 读 操 作 ， 而 修改 EL- 
LIPSE 变量 的 操作 当然 就 是 针对 该 类 型 定义 的 修改 操作 。 因 此 ， 我 们 所 声明 的 “继承 只 适用 于 
值 ， 而 不 适用 于 变量 " ， 可 以 作 如 下 更 精确 的 表述 : 

s 只 读 操作 是 由 值 继 承 的 ， 因 此 也 训 无 疑问 可 以 由 变量 的 当前 值 继 承 (这 是 因为 作为 变量 

当前 值 的 那些 值 可 以 训 无 妨碍 地 适用 于 只 读 操 作 ) 。 

这 表述 同时 也 可 以 解释 ， 为 什么 多 态 性 和 可 置换 性 的 概念 是 特别 针对 值 而 不 是 针对 变量 的 。 
比如 (只 是 为 了 提醒 大 家 ) ， 无 论 系统 在 何 处 需要 一 个 类 型 了 的 值 ， 我 们 总 可 以 用 一 个 类 型 了 的 
值 来 置换 ， 其 中 思 是 了 的 子 类 型 。 实 际 上 ， 我 们 是 在 引入 值 的 可 置换 性 原则 的 时 候 提 到 了 这 一 
原则 。 

那么 对 于 修改 操作 又 如 何 呢 ? 由 定义 可 知 ， 这 些 操作 适用 于 变量 而 不 适用 于 值 。 那 么 我 们 是 
否 可 以 说 适用 于 ELLIPSE 变量 的 修改 操作 会 被 CRCLE 变量 继承 呢 ? 

答案 是 不 完全 可 以 。 比 如 ， 对 THE_CTR 的 赋值 对 于 两 种 类 型 的 变量 都 适用 ， 但 是 〈 就 像 我 
们 已 经 看 到 的 ) ， 对 于 THE_A 的 赋值 就 不 可 以 。 这 样 一 来 ， 对 修改 操作 的 继承 就 是 有 条 件 的 。 
事实 上 ， 必 须 明 确 地 指出 哪些 修改 操作 是 被 继承 的 。 比 如 : 

ma 类 型 ELLIPSE 的 变量 具有 修改 操作 MOVE (修改 版 本 ) 和 对 THE_A、THE_B 以 及 THE_ 








400 。 锅 五 部 分 高 级 志 是 


CTR 的 赋值 操作 。 

se 类 型 CIRCLE 的 变量 具有 修改 操作 MOVE (修改 版 本 ) 和 对 THE_CTR 以 及 THE_R 而 不 

是 THE_A、THE_B 的 赋值 操作 。 

注意 : MOVE 操作 是 在 上 一 节 讨 论 的 。 

当然 ， 如 果 一 个 修改 操作 是 通过 继承 得 到 的 ， 我 们 就 有 了 不 仅仅 适用 于 值 而 且 适 用 于 变 
量 的 多 态 性 和 可 置换 性 。 比 如 ， 修 改版 本 的 MOVE 需要 一 个 类 型 为 ELLIPSE 的 变量 做 参数 . 
但 是 在 调用 它 的 时 候 ， 也 可 以 用 一 个 类 型 为 CIRCLE 的 变量 做 参数 。 这 样 我 们 可 以 (而且 确 
实 是 在 ) 合理 地 探讨 变量 的 可 置换 性 原则 一 一 但 是 这 一 原则 比 上 面 讨 论 的 值 的 可 置换 性 原则 
要 有 更 多 的 限制 。 


20. 9 再 论 约束 特 化 


对 于 前 面 几 节 的 讨论 ， 我 们 还 需要 加 上 一 个 很 短 但 却 是 非常 重要 的 后 记 。 后 记 涉 及 这 样 的 例 
子 :“ 设 CIRCLE 类 型 有 一 个 叫做 COLORED_CIRCLE ( 有 颜色 的 圆 ) 的 真子 类 型 ” (意思 是 说 
“有 颜色 的 圆 ”被 认为 是 圆 的 一 种 特殊 情况 ) 。 具 有 这 种 一 般 性 质 的 例子 在 各 种 著作 中 经 常 被 引 

。 只 是 我 们 还 是 要 说 这 种 例子 并 不 是 能 令 人 信服 的 ， 甚 至 在 某 些 重要 的 方面 ， 还 会 产生 误导 。 
具体 说 来 : 在 我 们 所 探讨 的 情况 中 ， 认 为 有 颜色 的 圆 是 圆 的 某 种 特殊 情况 实际 上 是 毫 无 意义 的 。 
毕竟 有 颜色 的 圆 肯 定 是 作为 一 个 图 像 来 定义 的 ， 可 能 是 在 一 个 显示 屏 上 ， 而 普遍 意义 上 的 贺 是 几 
何 图 形 而 不 是 图 像 。 因 此 认为 COLORED_CIRCLE 是 一 个 完全 独立 的 类 型 ， 而 不 是 CIRCLE 的 子 
类 型 看 起 来 也 许 更 合理 ? 。 这 个 单独 的 类 型 也 许 有 这 样 一 种 可 能 的 表示 形式 ， 它 有 一 个 分 量 
的 类 型 为 CIRCLE， 另 一 个 的 类 型 为 COLOR， 但 是 它 不 是 CIRCLE 的 子 类 型 。 

1. 继承 可 能 的 表示 形式 

下 面 有 一 个 非常 有 力 的 理由 支持 上 面 的 立场 。 首 先 ， 回 到 我 们 常用 的 关于 椭圆 和 圆 的 例子 。 
这 里 再 次 给 出 它们 的 类 型 定义 〈 仅 给 出 要 点 ) : 


TYPE ELLIPSE ... 
POSSREP {A..., B..., CTR ... }}; 


TYPE CIRCLE ... 
POSSREP { R ..., CTR ... }; 

尤其 要 注意 的 是 ， 椭 圆 和 贺 所 声明 的 可 能 表示 形式 是 不 同 的 。 但 是 ， 椭 圈 的 可 能 表示 形式 也 
是 (即使 是 隐 含 地 ， 也 必然 是 ) 圆 的 可 能 表示 形式 ， 因 为 圆 是 椭 加 。 自 然 地 ， 圆 通过 其 a、b 半 
轴 (以 及 其 中 心 ) “来 表示 是 可 能 的 "， 即 使 事实 上 其 a、b 半 轴 是 一 样 的 。 当 然 ， 反 之 不 成 
立 一 一 即 图 的 一 种 可 能 的 表示 形式 未 必 是 椭圆 的 一 种 表示 形式 。 

由 此 我 们 可 以 认为 ， 类 似 操作 和 约束 这 样 的 可 能 表示 形式 ， 是 圆 可 以 从 椭圆 继承 到 的 进一步 
“属性 ”， 或 者 更 一 般 地 认为 是 子 类 型 可 以 从 超 类 型 继承 到 的 进一步 “属性 ””。 但 是 当 我 们 转 
到 圆 和 有 颜色 的 圆 的 情况 时 ) ， 很 显然 声明 用 于 类 型 CIRCLE 的 可 能 表示 形式 并 不 能 作为 类 型 
COLORED_CIRCLE 的 可 能 表示 形式 ， 央 为 其 中 没有 可 以 表示 颜色 的 部 分 ! 这 一 事实 有 力 地 说 明 
了 ， 有 颜色 的 圆 不 是 圆 跟 圆 是 椭圆 是 一 样 的 道理 的 。 

2. 子 类 型 到 底 意 昧 着 什么 

下 面 要 讨论 的 内 容 与 前 一 个 问题 有 ( 某 些 ) 联系 ,但 是 它 的 结论 更 强 ( 即 逻辑 上 更 强 )。 结 
论 是 : 通过 约束 特 化 无 法 从 圆 获 得 一 个 有 颜色 的 圆 。 





撮 “COLORED_CIRCLE 是 CIRCLE 的 一 个 子 类 型 与 说 它 是 COLOR 的 一 个 子 类 型 是 等 价 的 〈 具 体 是 谁 的 子 类 型 无 所 
谓 ) o . 

合 ”在 形式 模型 中 我 们 并 不 这 样 认 为 ， 也 就 是 说 ， 我 们 不 考虑 将 这 种 继承 的 可 能 表示 作为 声明 表示 。 因 为 如 果 将 他 
们 作为 声明 表示 会 导致 冲突 。 具 体 说 就 是 ， 如 果 我 们 说 类 型 CIRCLE 从 类 型 ELLIPSE 继承 了 一 个 可 能 的 表示 ， 
那么 参考 文献 [3.3] 会 要 求 对 于 一 个 CIRCLE 变量 的 THE_A、THE_B 的 赋值 是 合法 的 ， 当 然 我 们 知道 这 是 不 
可 以 的 。 因 此 说 类 型 CIRCLE 从 类 型 ELLIPSE 继承 一 个 可 能 表示 只 是 一 种 口头 的 说 法 ， 但 这 种 说 法 并 不 规范 。 
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为 了 解释 这 个 结论 ,我们 先 回 到 椭 贺 和 贺 的 情况 。 再 次 给 出 类 型 的 定义 : 


TYPE ELLIPSE 
IS PLANE FIGURE 
POSSREP { A LENGTH, B PENSTE, _CTR POINT 
CONSTRAINT A > } 


TYPE CIRCLE 
IS ELLIPSE 
CONSTRAINT THE A ( ELLIPSE ) = THE B ( ELLIPSE ) 
POSSREP {R = THE A ( ELLIPSE 
CTR = THE CTR ( ELLIPSE ) }; 


就 像 我 们 在 前 面 看 到 的 ， 类 型 CIRCLE 的 CONSTRAINT 子 句 保 证 了 一 个 满足 a = 的 椭圆 会 
自动 地 被 限定 为 CIRCLE 类 型 。 但 是 现在 回 到 圆 和 有 颜色 的 圆 的 情况 : 对 于 类 型 COLORED_ 
CIRCLE， 我 们 无 法 给 出 任何 类 似 的 CONSTRAINT 子 句 ， 来 把 一 个 圆 限定 为 一 个 有 颜色 的 圆 一 一 
即 我 们 无 法 给 出 任何 类 型 约束 ， 如 果 一 个 给 定 的 圆满 足 这 些 约束 ， 则 意味 着 这 个 圆 实际 上 是 一 个 
有 颜色 的 圆 。 

因此 ， 这 再 一 次 说 明 ， 认 为 COLORED_CIRCLE 和 CIRCLE 是 完全 不 同 的 类 型 更 合理 ; 同时 
特别 地 认为 类 型 COLORED_CIRCLE 有 这 样 一 种 可 能 的 表示 形式 ， 即 它 的 一 个 分 量 是 CIRCLE 类 
型 的 ， 而 另 一 个 是 COLOR 类 型 的 : 


TYPE COLORED CIRCLE POSSREP { CIR CIRCLE, COL COLOR } ... 


事实 上 ,我们 在 这 里 磁 到 了 一 个 更 大 的 问题 。 事 实 是 ， 我 们 相信 子 类 型 总 是 通过 约束 特 化 得 
到 的 ! 也 就 是 说 ， 我 们 认为 如 果 T' 是 7 的 子 类 型 ， 则 总 会 有 一 个 这 样 的 类 型 约束 ， 如 果 类 型 
的 值 满 足 了 这 个 约束 ， 则 这 个 值 实际 上 是 类 型 7 的 一 个 值 (而 且 应 该 自动 地 被 限定 为 类 型 TT)。 
假设 和 7T' 表 示 两 个 类 型 ，T' 是 工 的 子 类 型 (实际 上 可 以 不 失 一 般 性 地 假设 TT 是 7T 的 直接 子 类 
型 ) ， 则 : 
s 了 和 7 都 是 基本 集合 〈 是 值 的 集合 ) ， 同 时 T 是 了 的 子 集 。 
sm 人 和 了 思 都 有 成 员 谓词 。 即 当 且 仅 当 满足 这 一 谓词 的 时 候 ， 一 个 值 才 是 上 述 集合 的 成 员 〈 因 
此 也 就 是 相应 类 型 的 成 员 ) 。 设 这 些 谓词 分 别 为 P 和 P'。 
me 现在 注意 到 ， 根 据 定 义 ， 谓 词 P' 在 某 个 值 是 属于 类 型 了 的 值 时 取 真 值 。 这 样 ， 它 实际 上 
可 以 写成 是 针对 属于 了 的 值 的 公式 〈 要 好 于 针对 7' 的 值 )。 
a 用 针对 了 的 值 的 公式 表达 的 谓词 P' 恰 好 是 一 个 类 型 约束 ， 一 个 属于 了 的 值 要 成 为 一 个 属 
于 7T' 的 值 就 必须 满足 谓词 P'。 
因此 ,约束 特 化 是 唯一 在 概念 上 定义 子 类 型 的 有 效 方法 。 作 为 一 个 推论 ， 我 们 拒绝 接受 类 似 
这 样 的 例子 ， 即 认为 COLORED_CIRCLE 是 CIRCLE 的 一 个 子 类 型 。 


20. 10 SQL 的 支持 


SQL 的 显 式 继承 仅 限于 对 “结构 化 类 型 的 ”单一 继承 的 支持 ， 对 产生 类 型 没有 显 式 继承 ， 
对 多 重 继承 也 没有 显 式 支持 ， 对 于 所 有 的 built-in 类 型 和 DISTINCT 类 型 也 没有 继承 支持 ”。 
这 里 列 出 定义 结构 化 类 型 的 语法 ; 


CREATE TYPE <type name> 
{ UNDER <type name> ) 
{ AS <representation> ] 
[ [ NOT ] INSTANTIABLE |] 
NOT FINAL 
[ <method specification commalist> }; 


下 面 是 SQL 中 用 于 定义 PLANE_FIGURE ，ELLIPSE 和 CIRCLE 可 能 的 例子 : 





”虽然 这 些 注释 说 明了 SQL 对 生成 类 型 的 继承 和 多 重 继承 有 一 些 潜在 的 支持 。 ( 正如 参考 文献 [3. 3] 所 提 到 的 ， 
参考 文献 里 说 的 更 广泛 一 些 。) 本 章 中 ,我 们 只 将 注意 力 集中 于 单一 继承 和 标量 类 型 。 
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CRERTE TYPE, PLANE FIGURE 
NOT INSTRANTIRABLE 
NOT FINAL ; 


CREATE TYPE ELLIPSE UNDER PLANE FIGURE 
AS ( A LENGTH, B LENGTH, CTR POINT ) 
INSTANTIABLE 
NOT FINAL ; 


CREATE TYPE CIRCLE UNDER ELLIPSE 
AS ( R LENGTH ) 
INSTANTIABLE 
NOT FINAL ; 


这 里 要 重复 在 第 5 章 中 的 一 些 要 点 : 

1) NOT INSTANTIABLE 意味 着 所 讨论 的 类 型 没有 “实例 ”， 这 里 的 实例 表示 一 个 值 ， 它 的 
最 确切 类 型 是 这 个 被 讨论 的 类 型 。 换 句 话说 就 是 ， 这 个 被 讨论 的 类 型 就 是 我 们 所 说 的 合并 类 
型 。INSTANTIABLE 意味 着 被 讨论 的 类 型 至 少 有 一 个 “实例 ”; 也 就 是 说 它 不 是 一 个 合并 类 型 ， 
并 且 至 少 有 一 个 值 的 最 确切 类 型 是 这 个 被 讨论 的 类 型 。 在 我 们 的 例子 中 ， 类 型 PLANE_FIGURE 
是 NOT INSTANTIABLE， 而 类 型 ELLIPSE 和 CIRCLE 则 是 INSTANTIABLE 的 (上 默认 为 IN- 
STANTIABLE ) 。 

2) 正如 第 5 章 所 讨论 的 那样 ，NOT FINAL 必须 是 被 指定 的 (虽然 SQL: 2003 可 能 允许 选 
择 指 定 为 FINAL) 。NOT FINAL 意味 着 被 讨论 的 类 型 拥有 合适 的 子 类 型 ， 如 果 支 持 FINAL 的 话 ， 
意思 正好 相反 。 

3) UNDER 用 于 识别 这 个 类 型 的 紧 接 的 超 类 型 (SQL 术语 中 称 为 直接 超 类 型 ) 。 因 此 ， 举 个 
例子 来 说 ，CIRCLE 是 ELLIPSE 的 “直接 子 类 型 ”， 那 么 特殊 的 圆 可 以 无 条 件 的 继承 椭圆 中 的 通 
用 属性 ,但 是 要 注意 : 

a) 这 里 的 “属性 ”不 表示 操作 和 约束 (和 它 在 我 们 的 继承 模型 中 不 同 )。 属 性 表示 操作 和 
结构 (或 者 说 是 表现 ) 。 换 名 话说 ，SQL 支持 行为 继承 和 结构 继承 ， 因 为 “结构 化 类 型 ”的 内 部 
结构 是 显 式 地 展示 给 用 户 的 。 参 见 第 5 点 。 

b) 这 里 的 “操作 ”不 仅仅 代表 只 读 操作 ( 和 它 在 我 们 的 继承 模型 中 不 同 )， 它 代表 所 有 
的 操作 。 也 就 是 说 ，SQL 并 没有 完全 的 区 分 开 值 和 变量 ,对 更 新 操作 也 必须 像 对 只 读 操作 一 
样 需要 无 条 件 的 继承 。 于 是 结果 变 成 圆 不 一 定 是 圆 形 的 ， 正 方形 也 不 一 定 是 正方 形 的 等 等 。 
(为 了 更 深入 地 探讨 这 点 ， 在 我 们 的 模型 中 ， 如 果 某 些 值 "的 最 确切 类 型 是 BLLIPSE， 那 么 它 
一 定 是 椭圆 而 不 是 圆 ， 如 果 它 的 最 确切 类 型 是 CIRCLE， 那 么 它 一 定 是 一 个 贺 的 椭 阅 ， 与 现实 
相符 。 但 在 SQL 中 ， 正 好 相反 ， 如 果 v 的 最 确切 类 型 是 ELLIPSE， 那 么 它 实际 上 可 能 是 一 个 
圆 ， 如 果 它 的 最 确切 类 型 是 CIRCLE， 那 么 它 可 能 实际 上 是 一 个 椭圆 而 不 是 一 个 圆 ， 与 现实 情 
况 并 不 相符 。) 

c) 讨论 的 操作 可 分 为 三 类 : 函数 、 过 程 和 方法 。 正 如 第 5 章 所 说 的 ， 函 数 和 过 程 大 致 对 应 
于 我 们 的 只 读 和 更 新 操作 ; 方法 比较 接近 函数 ， 不 过 是 用 不 同 的 语法 规则 来 激活 的 。 函 数 和 过 程 
分 别 通过 CREATE FUNCTION 和 CREATE PROCEDURE 语句 来 指定 ， 而 方法 则 棋 入 在 CREATE 
TYPE 语句 的 内 部 (为 了 简单 起 见 ， 我 们 在 我 们 的 例子 中 忽略 方法 规范 说 明 ) 。 编 译 时 绑 定 (就 
是 说 ， 只 绑 定 在 声明 类 型 的 基础 上 ) 运用 于 函数 和 过 程 ; 运行 时 绑 定 应 用 于 方法 ， 但 它 是 以 只 
包含 一 个 参数 为 基础 的 (对 象 系统 中 有 典型 的 例子 一 一 参见 第 25 章 ) 。 

4) SQL 术语 中 的 根 类 型 是 最 大 超 类 型 ; 因此 ， 我 们 例子 中 的 PLANE_FIGURE 是 一 个 最 大 
超 类 型 。( 奇怪 的 是 ， 在 SQL 术语 中 叶 类 型 并 不 是 最 小 子 类 型 而 就 是 叶 类 型 ， 所 以 在 我 们 的 例子 
中 CIRCLE 是 一 个 叶 类 型 。) 

5) 如 果 指 定 < representation > ， 那 么 图 括号 中 就 包含 < attribute definition commalist > ， 这 里 
的 < attribute > 是 由 < attribute name > 后 面 跟着 < type name > 组 成 的 。 但 是 要 注意 这 里 的 < repre- 
sentation > 是 被 讨论 类 型 的 值 的 一 个 物理 表达 式 一 一 不 是 所 有 的 表达 式 (那些 展示 给 用 户 的 物理 





他 参考 文献 [4.23] 定义 了 一 个 “和 值 的 物理 表示 的 ”实例 (?)。 
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表达 式 已 经 在 第 3 点 中 提出 来 了 ) 。 特 别 要 注意 的 是 ， 为 相同 类 型 指定 两 个 或 更 多 不 同 的 < repre- 
sentation > 是 不 可 能 的 。 注 意 : 正如 我 们 在 第 5 章 所 提 到 的 ， 类 型 设计 者 可 以 通过 明智 的 选择 和 
操作 设计 来 有 效 地 隐瞒 < representation > 是 物理 表达 式 的 事实 。 

6) 每 个 <attribute > 都 有 一 个 观察 方法 和 一 个 增 变 方法 ， 这 些 是 自动 提供 的 ， 一 起 使 用 可 以 
实现 与 Tutorial D 中 的 THE_ 操 作 相似 的 功能 (参见 第 5 章 中 的 一 些 例子 ) 。 系 统 并 没有 自动 提 
供 选 择 操作 ， 但 是 每 个 类 型 都 自动 配备 一 个 构造 函数 ， 在 激活 的 时 候 为 每 个 属性 配 上 一 个 合适 的 
默认 值 并 返回 唯一 的 类 型 值 一 一 正如 我 们 在 第 $ 章 中 所 看 到 的 ， 如 果 它 是 用 户 定 义 的 类 型 ， 那 么 
它 的 所 有 属性 都 必须 是 空 值 。 因 此 表达 式 


ELLIPSE () 


返回 的 是 “椭圆 "， 它 的 A 和 BB 均 为 “ 空 长 "，CTR 为 “ 空 点 ”( 当然 与 点 的 X 和 Y 部 分 均 为 空 
并 不 矛盾 ) 。 而 表达 式 


ELLIPSE (} .A ( LENGTH () .L ( 4.0) 
.B (LENGTH () .LL {3.0) 
. CTR ( POINT () x (0.0) 
返回 4 为 4、5 为 3、 中 心 为 原点 的 椭圆 。( 我 们 已 经 假设 类 型 LENGTH 是 只 含有 一 个 属性 的 表达 
式 , L 是 浮 点 型 。) 
7) 我 们 发 现 无 法 确定 类 型 和 合法 值 集合 。 也 就 是 说 ， 除 了 物理 表达 式 所 隐 含 的 约束 ， 不 存 
在 类 型 约束 。SQL 不 支持 约束 继承 一 一 这 些 在 第 3 点 中 已 经 提 到 了 。 
8) 每 个 结构 化 类 型 都 有 一 个 相关 参照 类 型 。 我 们 在 本 章 不 讨论 参照 类 型 ， 但 是 要 注意 SQL 
所 支持 的 参照 类 型 包括 “ 子 表 和 超 表 ”。 我 们 将 在 第 26 章 继续 讨论 这 个 问题 。 
接 下 来 我 们 再 详细 地 讨论 SQL 对 类 型 继承 的 支持 。 首 先 要 注意 的 是 SQL 与 我 们 的 参照 的 模 
型 相似 (至 少 是 应 用 于 单一 继承 的 模型 ) ， 都 依赖 于 独立 假设 和 最 确切 类 型 唯一 的 假设 。SQL 也 
支持 置换 性 (虽然 它 不 能 很 好 地 区 分 值 和 变量 ,也 无 法 区 分 只 读 和 更 新 操作 ， 甚 至 不 能 很 好 地 
区 分 值 和 变量 之 间 的 置换 性 ) ， 但 SQL 并 不 使 用 多 态 这 个 术语 。 
SQL 支持 与 我 们 的 TREAT DOWN 和 类 型 测试 操作 对 应 的 操作 。 例 如 : 
s SQL 中 的 TREAT (E AS CIRCLE) 同 TREAT_DOWN_AS_CIRCLE (E) 类 似 ; 
aa SQL 中 的 TYPE (E) IS OF (CIRCLE) 同 IS_CIRCLE (E) 类 似 ; 
s SQL 中 的 
R : IS CIRCLE ( 了 ) 
是 


SELECT TREAT ( E AS CIRCLE ) AS E，F，G，...， 晶 
FROM 
WHERE TYPE ( E ) IS OF ( CIRCLE ) 


(F,G,…,H 是 从 E 中 分 离 出 来 的 R 的 所 有 属性 。) 
既然 SQL 不 支持 类 型 约束 ， 显 然 它 也 不 会 支持 约束 的 特 化 和 泛 化 。 但 是 要 注意 ， 这 并 不 意 
味 着 一 个 变量 的 最 确切 类 型 不 能 发 生变 化 。 例 如 : 


DECLARE E ELLIPSE ; 


.YY(0.0)) 


SET E = CX; 

SET E = EX ; 
这 里 的 CX 和 EX 是 表达 式 ， 其 返回 值 的 最 确切 类 型 分 别 是 CIRCLE 和 ELLIPSE。 因 此 ， 在 第 一 
次 分 配 之 后 ， 变 量 E (其 声明 类 型 为 ELLIPSE) 有 最 确切 类 型 CIRCLE; 第 二 次 之 后 ， 它 的 最 确 
切 类 型 是 ELLIPSE。 但 是 要 注意 ， 变 量 的 最 确切 类 型 的 变化 不 会 影响 到 约束 的 特 化 和 泛 化 。 

最 后 ， 回 想 -一 下 第 5 章 ， 一 个 给 定 的 结构 化 类 型 并 不 需要 有 一 个 关联 的 “= ”操作 即 
使 它 有 这 个 操作 ， 这 个 操作 的 语义 也 完全 是 由 用 户 定义 的 。 事 实 上 ，SQL 并 不 要 求 比 较 符 的 最 
确切 类 型 相同 使 得 比较 给 出 的 值 是 TRUE! 如 果 包 含 任意 一 个 结构 化 类 型 ， 那 么 就 无 法 保证 SQL 
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能 很 好 地 支持 连接 、 并 、 交 和 和 差 。 注 意 ， 这 个 标准 并 没有 考虑 是 否 存 在 类 型 继承 。 

继承 还 是 授权 

我 们 必须 承认 在 这 一 小 节 的 讨论 可 能 会 造成 某 些 重要 方面 的 误导 。 事 实 是 ，SQL 的 类 型 继 
承 机 制 ( 不 同 于 我 们 自己 的 继承 模型 ) 几乎 不 支持 通过 约束 超 类 型 来 获得 子 类 型 的 思想 。 我 们 
青 来 看 看 椭 阅 和 圆 的 例子 : 


CREATE TYPE ELLIPSE UNDER PLANE FIGURE 
AS ( A LENGTH, B LENGTH, CTR POINT ) ...; 


CREATE TYPE CIRCLE UNDER ELLIPSE 
RS ( R LENGTH ) ...}; 

根据 这 些 定义 ， 类 型 CIRCLE 有 属性 4、B、CTR (继承 自 类 型 ELLIPSE) 以 及 R (CIRCLE 
类 型 特有 的 ) 。 如 果 用 指定 的 属性 组 成 物理 表达 式 ， 那 么 任意 给 定 的 圆 将 是 四 个 值 的 集合 ， 其 中 
三 个 均 相 同 。 因 为 这 样 ， 很 可 能 类 型 CIRCLE 的 定义 不 会 指定 任何 它 自己 的 < representation > ， 
而 是 简单 地 继承 类 型 ELLIPSE 的 表达 式 。 另 一 方面 ， 如 果 类 型 CIRCLE 的 表达 式 没有 R (半径 ) 
元 素 ， 那 么 就 不 会 自动 为 半径 提供 观察 和 增 变 方 法 。 第 三 点 …… 如 果 表 达 式 有 R 的 部 分 ， 增 变 
R， 也 就 是 卷 起 一 个 “不 圆 的 癌 ” 一 一 也 就 是 说 一 个 “ 圆 ”的 A4、B、R 的 值 并 不 完全 相同 。 

基于 各 种 原因 ， 可 能 有 人 会 认为 “椭圆 和 贺 ” 并 不 是 说 明 SQL 类 型 继承 功能 的 最 佳 例子 。 
但 是 SQL 无 法 很 好 地 处 理 这 个 例子 却 是 事实 。 我 们 换 一 个 不 同 的 例子 来 说 明 : 


CREATE TYPE CIRCLE 
AS ( R LENGTH, CTR POINT ) 
INSTANTIABLE 
NOT FINAL ; 


CREATE TYPE COLORED CIRCLE UNDER CIRCLE 
RS ( COL COLOR ) 
INSTANTIABLE 
NOT FINAL ; 
这 个 例子 是 我 们 之 前 不 十 分 推崇 的 一 个 例子 ， 在 20. 9 节 中 ， 我 们 认为 “从 圆 是 椭圆 的 意义 
上 来 讲 ， 有 颜色 的 圆 不 是 圆 ”"。 但 是 如 果 我 们 谈论 的 是 继承 、 可 能 的 扩展 以 及 表达 式 ， 那 么 这 个 
例子 会 更 有 意义 ， 认 为 着 色 圆 是 由 半径 、 圆 心 和 颜色 来 表示 ， 这 是 合理 的 。 如 果 我 们 说 类 型 
COLORED_CIRCLE 处 于 类 型 CRCLE“ 之 下 " ,那么 认为 对 普通 圆 的 操作 一 一 例如 获得 半径 的 
操作 一 一 应 用 于 特殊 的 着 色 圆 上 (着 色 圆 可 以 被 圆 代替 ) 也 是 合理 的 。 但 是 认为 着 色 圆 是 一 个 
普通 圆 的 “约束 形式 ”， 或 者 说 着 色 圆 是 通过 对 圆 的 约束 特 化 得 到 的 就 没有 意义 了 。 换 句 话 说 ， 
SQL 继承 机 制 并 不 是 用 于 处 理 本 章 前 面 所 定义 的 那些 术语 ， 而 是 用 于 处 理 一 些 作 者 所 说 的 授权 。 
授权 的 意思 是 实现 与 类 型 有 关 某 个 操作 的 责任 被 授予 该 类 型 表达 式 中 的 某 些 组 成 部 分 的 类 型 
(例如 ， 对 着 色 圆 的 “获取 半径 ”的 操作 是 通过 调用 在 相应 的 圆 上 “获取 半径 ”来 实现 的 ) 。 那 
么 称 SQL 的 这 个 机 制 为 授权 机 制 要 比 禁止 它 与 子 类 型 有 任何 关系 来 得 更 清楚 一 些 。 


20. 11 小 结 


本 章 已 经 简要 地 介绍 了 类 型 继承 模型 的 基本 概念 。 如 果 类 型 8 是 类 型 A 的 子 类 型 (等 价 地 ， 
类 型 4 是 类 型 8 的 超 类 型 ) ， 则 每 个 属于 类 型 B 的 值 也 属于 类 型 4， 因 此 适用 于 类 型 4 的 值 的 操 
作 和 约束 也 同样 适用 于 属于 8B 的 值 ( 也 会 存在 适用 于 属于 8 的 值 的 操作 和 约束 ， 但 是 并 不 适用 
于 只 属于 4 的 值 ) 。 事 实 上 ， 现 在 我 们 可 以 说 得 更 具体 一 些 ， 如 果 8 是 4 的 真子 类 型 ， 那 么 : 

= 8 的 值 集 是 4 的 值 集 的 一 个 真子 集 。 

， 8 有 一 个 A 上 约束 的 真 超 集 。 

a B 有 一 个 A 上 只 读 操作 的 真 超 集 。 

。 有 有 一 个 4 上 更 新 操作 的 真子 集 (但 是 它 本 该 有 自己 额外 的 更 新 操作 ， 这 些 更 新 操作 不 用 

于 4)。 
我 们 区 分 了 单一 继承 和 多 重 继承 但 是 只 讨论 了 单一 继承 ) ， 还 有 标量 继承 、 元 组 继承 和 关 
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系 继承 (但 是 只 讨论 了 标量 继承 )”， 同 时 引入 了 类 型 层次 结构 的 概念 ， 还 定义 了 真子 类 型 和 真 
超 类 型 、 直 接 子 类 型 和 直接 超 类 型 、 根 类 型 和 叶 类 型 。 同 时 我 们 描述 了 不 相交 假设 : 类 型 71 与 
72 是 不 相交 的 ， 除 非 一 个 是 另 一 个 的 子 类 型 。 作 为 这 个 假设 的 一 个 推论 ， 我 们 说 每 个 值 只 有 一 
个 唯一 的 最 确切 类 型 〈 但 是 它 不 必 是 叶 类 型 ) 。 

接 下 来 ， 讨 论 了 (包含 ) 多 态 性 和 (〈 值 的 ) 可 置换 性 的 概念 ， 它 们 都 是 基本 的 继承 概念 的 
逻辑 推论 。 区 分 了 包含 多 态 (与 继承 有 关 ) 和 量 载 多 态 (与 继承 无 关 ) ， 还 展示 了 包含 多 态 是 如 
何 带 来 代码 重用 的 一 一 借助 于 动态 联 编 。 

然后 又 考虑 了 继承 对 赋值 操作 的 影响 。 基 本 的 想法 是 不 发 生 类 型 转换 一 一 值 在 被 赋 给 一 个 非 
确切 类 型 的 变量 时 可 以 保持 其 最 确切 类 型 ， 因 此 一 个 声明 类 型 为 了 的 变量 可 以 有 一 个 最 确切 类 
型 是 了 的 任意 子 类 型 的 值 〈 同 样 地 ， 如 果 定 义 操作 Op 的 结果 的 声明 类 型 为 了 ， 则 调用 Op 所 得 
到 的 实际 结果 的 值 的 最 确切 类 型 可 以 是 了 的 任意 子 类 型 )。 因 此 我 们 模型 化 一 个 标量 变量 V (或 
者 更 一 般 地 ， 一 个 任意 的 标量 表达 式 ) 成 为 一 个 形 如 < DT, MST,v > 的 有 序 元 组 。 其 中 DT 是 声 
明 类 型 ，MST 是 当前 最 确切 类 型 ，v 是 当前 值 。 我 们 引入 了 TREAT DOWN (类 型 下 移 ) 操作 ， 
使 得 可 以 对 这 样 的 表达 式 进行 操作 ， 这 些 表 达 式 在 运行 时 候 的 最 确切 类 型 是 其 声明 类 型 的 真子 类 
型 。 否 则 类 型 下 移 操作 会 在 编译 的 时 候 报 出 类 型 错误 (运行 时 的 类 型 错误 也 会 出 现 ,， 但 是 错误 
只 会 出 在 TREAT DOWN 操作 内 ) 。 

接着 更 详细 地 探讨 了 选择 子 操作 。 调 用 类 型 7 的 一 个 选择 子 操作 时 ， 有 时 候 会 产生 一 个 属于 
7 的 某 个 真子 类 型 的 结果 〈 至 少 在 我 们 的 模型 里 是 这 样 ， 虽 然 在 今天 的 商用 产品 中 并 不 是 这 样 ) ; 
约束 特 化 。 然 后 又 比较 详细 地 讨论 了 THE_ 伪 变量 。 既 然 它 们 只 是 一 些 缩写 ， 则 约束 特 化 和 约束 
概括 在 对 THE_ 伪 变量 进行 赋值 时 都 会 出 现 。 

然后 开始 讨论 子 类 型 和 超 类 型 对 等 值 比较 以 及 一 些 关 系 操作 (连接 、 并 、 交 、 差 ) 的 影响 。 
我 们 也 引入 了 一 些 类 型 检测 操作 : IS_T 等 。 其 后 考虑 了 关于 只 读 操作 和 修改 操作 、 操 作 版 本 、 
操作 签名 的 问题 ， 并 指出 为 一 个 操作 定义 不 同 版 本 的 能 力 使 得 对 该 操作 改变 语义 成 为 可 能 (但 
是 在 我 们 的 模型 中 禁止 这 种 改变 ) 。 

之 后 ， 我 们 考查 了 “ 圆 真 的 是 椭圆 吗 ?” 这 样 一 个 问题 。 通 过 考查 确定 了 这 样 一 个 立场 : 即 
继承 只 适用 于 值 ， 而 不 适用 于 变量 。 更 准确 地 说 就 是 ， 只 读 操 作 (只 适用 于 值 ) 可 以 百分之百 
地 得 到 继承 而 毫 无 问题 ， 但 是 修改 操作 〈 适 用 于 变量 ) 只 能 有 条 件 地 得 到 继承 〈 我 们 的 模型 在 
这 方面 与 大 部 分 其 他 的 方法 不 一 致 。 那 些 方法 通常 要 求 修改 操作 可 以 被 无 条 件 地 继承 ， 但 是 使 用 
这 些 方法 接着 就 会 被 各 种 问题 所 困扰 ， 这 些 问 题 自 然 与 所 谓 “ 非 阅 形 的 圆 ”等 类 似 的 说 法 有 
关 ) 。 于 是 据 此 得 出 结论 : 从 我 们 的 立场 上 ,约束 特 化 是 在 逻辑 上 定义 子 类 型 的 唯一 有 效 方 法 。 

最 后 简单 讨论 了 授权 的 概念 。 这 个 概念 虽然 与 继承 相关 ， 但 是 在 逻辑 上 还 有 一 定 的 距离 
( 它 同 样 也 是 以 代码 重用 为 目的 ) 。 我 们 简单 的 介绍 了 SQL 继承 机 制 ， 包 括 真正 用 于 解决 授权 问 
题 而 不 是 继承 问题 的 机 制 。 我 们 将 在 第 26 章 更 加 详细 的 介绍 符合 SQL 风格 的 继承 。 


习题 
20.1 用 自己 的 语言 给 出 下 列 词语 的 定义 : 





代码 重用 真子 类 型 授权 根 类 型 
约束 泛 化 动态 联 纺 直接 子 类 型 。 签名 
继承 约束 特 化 叶 类 型 可 置换 性 
多 态 性 合并 类 型 


20.2 解释 TREAT DOWN (类 型 下 移 ) 操作 。 

20.3 ”区 分 下 列 概念 : 
参数 与 参量 声明 类 型 与 当前 最 确切 类 型 
包含 多 态 与 重 载 多 态 调用 签名 、 描 述 签名 与 版 本 签名 





我们 至 少 可 以 说 ， 本 章 中 所 讨论 的 单一 继承 和 标量 继承 的 思想 可 以 很 方便 地 扩展 到 多 重 继承 、 元 组 继承 和 关系 
继承 的 概念 上 ， 正 如 参考 文献 [3.3] 所 论述 的 。 
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只 读 操 作 与 修改 操作 值 与 变量 
(最 后 两 个 请 参考 练习 5. 2) 

20.4 参照 图 20-1 的 类 型 层次 结构 ， 有 一 个 属于 类 型 ELLIPSE 的 值 e。e 的 最 确切 类 型 是 ELLIPSE 或 CIR- 
CLE， 那 么 e 的 最 不 确切 类 型 是 什么 ? 

20.5 任意 给 定 的 类 型 层次 结构 包括 很 多 子 层 次 结构 ， 这 些 子 层次 结构 仅 赁 自身 也 可 以 被 认为 是 完整 的 类 
型 层次 结构 。 比 如 ， 对 于 从 图 20-1 中 (只 ) 删除 了 类 型 PLANE_FIGURE 、ELLIPSE 和 CIRCLE 得 
到 的 层次 结构 而 言 ， 凭 借 该 层次 结构 自身 的 特征 也 可 以 认为 是 一 个 类 型 层次 结构 。 同 样 地 ，( 只) 
删除 了 类 型 CIRCLE、SQUARE 和 RECTANGLE 之 后 所 得 到 的 也 是 一 样 。 但 是 (只) 删除 ELLIPSE 
后 得 到 的 层次 结构 凭借 其 自身 的 特征 就 不 能 认为 是 一 个 类 型 层次 结构 至 少 没有 人 可 以 从 图 20-1 中 
派生 出 它 来 ) ， 因 为 类 型 CIRCLE“ 丢 失 了 它 的 一 些 继承 特征 ”， 而 这 是 它 在 那个 层次 结构 中 本 应 该 
有 的 。 那 么 在 图 20-1 中 总 共有 多 少 个 不 同 的 类 型 层次 结构 呢 ? 

20.6 利用 本 章 给 出 的 简要 语法 ， 给 出 类 型 RECTANGLE 和 SQUARE 的 类 型 定义 (为 了 简单 起 见 ， 假 设 
所 有 和 托 形 的 中 心 都 在 原点 ， 但 是 并 不 假设 所 有 的 边 都 是 垂直 或 水 平 的 ) 。 

20.7 根据 你 对 练习 20. 6 的 答案 ， 定 义 一 个 操作 ， 可 以 使 一 个 特定 的 矩形 绕 它 的 中 心 旋转 90" ， 还 要 给 出 
该 操作 针对 正方 形 的 显 式 特 化 。 

20.8 ”下面 引用 20.6 节 的 一 个 例子 :“ 关 系 变量 R 有 一 个 声明 类 型 为 ELLIPSE 的 属性 A， 我 们 希望 通过 查 
询 R 得 到 这 样 的 元 组 ， 即 A 的 值 实 际 上 是 一 个 圆 而 且 其 半径 大 于 2。 ”下面 是 在 20.6 节 给 出 的 这 个 
查询 的 公式 : 


R : IS CIRCLE ( A ) WHERE THE R (A) > LENGTH ( 2.0 ) 


a 为 什么 我 们 不 能 简单 地 在 WHERE 子 句 中 表达 类 型 检查 条 件 ? 比 如: 


R WHERE IS CIRCLE ( A ) AND THE R (A ) > LENGTH ( 2.0 ) 


b. 另 一 个 候选 的 公式 是 : 
R WHERE CASE 
WHEN IS CIRCLE ( A ) THEN 
THE R ( TREAT DOWN AS_ CIRCLE ( A ) ) 
> LENGTH ( 2.0 ) 
WHEN NOT ( IS CIRCLE ( A ) ) THEN FALSE 
END CASE 
这 个 公式 会 有 效 吗 ? 如 果 不 会 ， 为 什么 ? 
20.9 参考 文献 [3.3] 建议 支持 这 样 的 关系 表达 式 


R TREAT DOWN AS T (a) 


这 里 尺 是 一 个 关系 表达 式 ，4 是 该 表达 式 所 代表 的 关系 (比如 说 叫 r). 的 一 个 属性 ，7 是 一 个 类 型 。 
4 的 声明 类 型 DT (4) 必定 是 了 的 超 类 型 〈 这 是 编译 时 做 的 检查 ) 。 整 个 表达 式 的 值 被 定义 为 一 个 
关系 ， 而且: 
a 其 属性 名 称 与 7 一 样 ， 除 了 其 中 属性 4 的 声明 类 型 为 T; 
b. 其 内 容 包含 与 上 一 样 的 元 组 ， 除 了 元 组 中 属性 4 的 值 被 下 移 成 了 TT。 
但 是 ， 这 个 操作 还 是 一 个 缩写 。 为 什么 ? 请 具体 说 明 。 

20. 10 形 如 R: IS_7 (4) 的 表达 式 同样 是 一 个 缩写 。 为 什么 ? 请 具体 说 明 。 

20.11 SQL 支持 构造 函数 而 不 是 选择 器 ， 两 者 的 区 别 是 什么 ? 

20.12 ”为 什么 你 认为 SQL 不 能 支持 类 型 限定 ? 如 何 进行 特殊 的 类 型 限定 ? 


参考 文献 


这 里 没有 进一步 详细 描述 继承 模型 唯一 的 重要 变化 ， 即 在 本 章 所 述 的 对 多 继承 的 支持 。 首 先 ， 仅 仅 要 
求 根 类 型 是 分 离 集合 ; 其 次 ， 重 新 定义 most specific type 为 : 每 个 集合 类 型 1 ，7T2，…，Tn (nz>0) 必须 
有 一 个 通用 子 类 型 T'， 以 便当 给 定 值 是 T 类 型 时 ,该 值 属于 T1，7T2，…，Tn 类 型 ， 见 参考 文献 [3.3] 对 
这 些 问 题 的 进一步 的 详细 讨论 ， 以 及 为 了 支持 元 组 和 关系 继承 的 扩展 要 求 。 
[20.1] Alphora: Dataphor™ Product Documentation. Available from Alphora, 2474 North University Avenue, 
Provo ，Utah 84604 (参见 http://www. alphora. com). 
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[20.2] 


[20.3] 
[20. 4] 


[20. 5] 
[20.6] 


[20.7] 


[20.8] 


[20.9] 


[20. 10] 


[20. 11] 


[20. 12] 


Dataphor 是 一 个 商业 产品 ， 支 持 本 章 所 述 的 继承 模型 的 一 个 大 的 子 集 (以 及 The Third Mani- 
festo [3.3] 中 所 述 的 一 个 大 的 子 集 ) 。 
Malcolm Atkinson et al. : “The Object-Oriented Database System Manifesto,” Proc. 1st Int. Conf. on 
Deductive and Object-Oriented Databases, Kyoto, Japan (1989).New York, N.Y. : Elsevier Science 
(1990). 

关于 一 个 好 的 继承 模型 缺乏 一 致 性 的 问题 (在 20.1 节 提 到 过 )， 这 篇 论文 的 作者 这 样 说 ; 
“至 少 存在 四 种 类 型 的 继承 : 置换 继承 、 包 含 继承 、 约 束 继承 和 特定 继承 …… 现 有 系统 和 原型 各 
自 不 同 程度 地 提供 了 这 四 种 类 型 的 继承 ， 而 我 们 并 不 规定 一 种 特别 形式 的 继承 。 

这 里 还 有 一 些 其 他 的 引文 表达 了 同样 的 观点 : 

Cleaveland [20. 5] 中 提 到 :“ [继承 可 以 ] 基于 [各 种 ] 不 同 的 标准 ， 而 且 并 不 存在 (被 人 们 ) 
普遍 接受 的 标准 定义 ”。 并 且 对 此 给 出 了 8 种 合理 的 解释 。( Meyer [20. 11] 给 出 了 12 种 )。 
Baclawski 和 Indurkhya [20.3] 说 :“ [一 种 ] 编程 语言 [只是] 提供 一 组 [继承] 机 制 。 这 
些 机 制 显然 限定 了 用 这 种 语言 可 以 做 什么 ， 以 及 可 以 实现 什么 样 的 继承 视图 …… 它 们 自身 并 不 能 
使 这 样 或 那样 的 继承 视图 生效 。 类 、 特 化 、 泛 化 和 继承 性 只 是 概念 ， 而 且 …… 它 们 没有 一 般 意义 
上 的 客观 含义 …… 这 [一 事实 ] 暗示 继承 性 如 何 并 入 一 个 特定 的 系统 取决 于 【这 个 ] 系统 的 设计 
者 ， 这 就 成 了 一 种 要 由 有 效 机 制 来 实现 的 策略 选择 了 。” 换 句 话 说 ， 根 本 就 没有 模型 ! 

然而 ， 本 章 我 们 已 经 清楚 的 描述 过 ， 我 们 不 同意 以 上 的 结论 。 

注意 : 此 文章 将 在 第 25 章 第 1 节 中 作为 参考 文献 【25.1] 再 次 出 现 ， 在 那里 可 以 找到 进 一 
步 的 解释 。 
Kenneth Baclawski and Bipin Indurkhya; Technical Correspondence, CACM 37, No.9 (〈( September 
1994 ) . 
Luca Cardelli and Peter Wegner: “On Understanding Types, Data Abstraction, and Polymorphism,” ACM 
Comp. Surv. 17, No. 4 (December 1985). 
J. Craig Cleaveland: An Introduction to Data Types. Reading, Mass. : Addison-Wesley (1986). 
C.J. Date. “1s a Circle an Ellipse?” http: //www. dbdebunk. com( July 2001). 
工业 界 对 于 本 文 标题 中 提 到 的 问题 持 否定 答案 。 本 文 引 述 该 方面 的 一 些 权威 试图 扭转 他 们 的 观 
点 。 注 意 ; 本 书 初版 时 ， 曾 引起 巨大 的 在 线 评论 和 批评 ， 这 些 都 可 以 从 http://www. dbedunk. com 
上 获取 。 
C.J. Date:“ What Does Substitutability Really Mean?” http://www. dbdebunk. com( July 2002). 
具体 的 分 析 与 评论 见 参 考 文献 [20.9]。 
You-Chin Fuh er al. :“ Implementation of SQL3 Stractured Types with Inheritance and Value Substitut- 
ability ,”Proc. 25th Int. Conf on Very Large Data Bases，Edinburgh ，Scotland( September 1999 ) . 

应 用 摘要 中 的 一 部 分 : “本 文 讲述 了 DB2 方法 … 首 先 ， 结构 化 类 型 的 值 以 自 描述 的 形式 出 
现 ， 并 且 仅 仅 通过 系统 产生 的 observer 或 者 mutator 方法 进行 操纵 ， 以 便 使 操作 对 底层 存储 管理 器 
的 影响 最 小 化 ; 第 二 ， 基 于 值 的 增 变 语义 通过 编译 时 的 拷贝 避免 算法 来 有 效 实 现 ; 第 三 ， 结 构 化 
类 型 的 值 是 在 线 或 者 离线 动态 存储 "” 。 注 意 : “基于 值 的 增 变 语义 ” 指 SQL 的 增 变 实际 上 是 只 读 
的 操作 符 。 (在 目标 上 执行 增 变 将 产生 “突变 ”效应 ， 也 就 是 说 ，T 的 赋值 结果 依然 会 返回 给 
T。) 
Barbara Liskov and Jeannette Wing: “A Behavioral Notion of Subtyping,” ACM TOPLAS( Transactions 
on Programming Languages and Systems)16, No. 6( November 1994). 

在 很 多 参考 文献 中 置换 指 的 是 Liskov 置换 原则 (LSP) 。 该 文 被 认为 是 这 个 原理 的 源头 。 
Nelson Mattos and Linda G. DeMichiel: “Recent Design Trade-Offs in SQL3,” ACM SIGMOD Record 
23, No. 4( December 1994). 

该 文 给 出 了 决策 时 SQL 语言 设计 人 员 不 支持 类 型 限定 的 原理 (这 是 基于 早期 Zdonik 和 
Maier 在 参考 文献 [20. 14] 中 的 讨论 ) 。 我 们 不 同意 那个 原理 ， 基 本 问题 在 于 它 没有 合理 的 区 分 
开 值 和 变量 。 

Bertrand Meyer:“ The Many Faces of Inheritance: A Taxonomy of Taxonomy,” IEEE Computer 29, 
No. 5 (May 1996). 

James Rumbaugh:“ A Matter of Intent: How to Define Subclasses,” Journal of Objec! Oriented Pro- 
gramming (September 1996). 
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[20. 13] 
[20. 14] 


彩 瑟 部 分 部 级 专题 


在 20. 9 节 中 提 到 ， 我 们 的 观点 是 : 约束 特 化 是 在 逻辑 上 定义 子 类 型 的 唯一 有 效 方法 。 因 
此 ， 可 以 注意 到 这 样 一 件 非常 有 趣 的 事情 ， 对 象 世 界 恰恰 是 站 在 完全 相反 的 立场 上 ! 或 至 少 是 
那个 世界 中 的 某 些 人 是 这 样 做 的 。 用 Rumbaugh 的 话说 : “SQUARE 是 RECTANGLE 子 类 吗 ? 
i 拉 伸 矩形 的 x 轴 是 一 件 很 正常 的 事情 ， 但 是 ， 如 果 你 对 一 个 正方 形 做 同样 的 操作 ， 则 它 就 
再 也 不 是 一 个 正方 形 了 。 概 念 上 ， 这 并 不 是 一 件 坏 事 。 当 你 拉 伸 一 个 正方 形 的 时 候 ， 你 得 到 了 
一 个 矩形 …… 但 是 …… 大 多 数 面向 对 象 的 语言 并 不 希望 对 象 改 变 它们 所 属 的 类 …… 所 有 这 些 都 
暗示 了 (一 条 ) 分 类 系统 的 设计 原则 : 子 类 不 能 通过 对 父 类 的 约束 来 定义 。 注 意 : 像 在 第 24 章 
所 解释 的 ， 对 象 世 界 中 类 这 个 词 所 表达 的 意思 经 常 和 我 们 所 说 的 类 型 所 表达 的 意思 是 一 样 的 。 

我 们 惊奇 地 发 现 ，Rumbaugh 站 在 这 个 立场 上 显然 只 是 因为 面向 对 象 语言 “不 希望 对 象 改 变 
它们 所 属 的 类 ”。 而 我 们 宁愿 首先 保证 模型 的 正确 人 性， 然后 再 考虑 它 的 实现 问题 。( 任何 情况 下 ， 
我 们 都 不 知道 如 何 有 效 实现 限制 的 细节 ， 参 考 文献 [3. 3] 中 记录 了 一 些 这 方面 的 思想 ) 。 
Andrew Taivalsaari: “On the Notion of Inheritance,” ACM Comp. Surv 28 No.3 (September 1996 ) . 
Stanley B. Zdonik and David Maier:“Fundamentals of Object-Oriented Databases,” in reference [25. 42 ] . 


第 21 章 分布 式 数据 库 


21.1 引言 


我 们 在 第 2 章 结尾 提 到 了 分 布 式 数据 库 的 问题 ， 在 此 引述 一 下 :“ 完 整 的 分 布 式 数据 库 支 持 
意味 着 ， 单 个 的 应 用 程序 应 该 可 以 “透明 地 ”操纵 数据 ， 这 些 数据 分 布 在 各 种 不 同 的 数据 库 中 ， 
由 不 同 的 DBMS 管理 ， 运 行 在 不 同 的 机 器 上 ， 受 不 同 的 操作 系统 支持 ， 通 过 各 种 不 同 的 通信 网 
络 连 接 起 来 一 一 这 里 ,“ 透 明 地 ”的 意思 是 指 从 逻辑 上 看 ， 应 用 程序 操纵 数据 ， 就 像 数 据 都 由 运 
行 在 同一 台 机 器 上 的 DBMS 来 管理 ”本 章 将 要 更 细致 地 讨论 这 些 概 念 。 具 体 地 说 ， 我 们 将 明确 
地 解释 什么 是 分 布 式 数据 库 ， 为 什么 分 布 式 数据 库 会 变 得 越 来 越 重要 (考虑 其 在 万 维 网 中 的 应 
用 ,参见 第 27 章 ) ， 以 及 在 分 布 式 数据 库 领域 中 的 一 些 技术 难题 是 什么 。 

第 2 章 还 简要 地 讨论 了 客户 /服务 器 系统 ， 可 以 将 该 系统 看 作 是 一 般 分 布 式 系统 的 一 个 简单 
的 特例 。 在 21. 5 节 我 们 将 专门 讨论 客户 /服务 器 系统 。 

本 章 的 安排 将 在 下 一 节 的 最 后 进行 说 明 。 


21.2 预备 知识 


我 们 先 从 一 个 指导 性 的 定义 开始 (目前 还 不 需要 很 严密 ) 。 

分 布 式 数据 库 系 统 由 一 系列 的 场地 组 成 ， 通 过 某 种 通信 网 络 连接 在 一 起 ， 其 中 : 

a 每 个 场地 自身 都 有 一 个 完备 的 数据 库 系 统 ， 但 是 

b. 所 有 的 场地 都 可 以 协同 工作 ， 使 得 任何 场地 上 的 用 户 都 可 以 访问 通信 网 络 上 任何 地 方 的 
数据 ， 就 好 像 数 据 是 存储 在 用 户 自己 的 场地 上 一 样 。 

由 此 可 见 ， 所 谓 的 “分 布 式 数据 库 ”实际 上 是 一 种 虚拟 的 数据 库 ， 它 的 各 个 组 成 部 分 物理 
地 存储 在 许多 不 同 场地 上 的 不 同 的 “真实 ”数据 库 中 ( 从 效果 上 讲 ， 它 是 这 些 真实 数据 库 逻 辑 
上 的 并 集 ) 。 图 21-1 中 给 出 了 一 个 例子 。 

请 再 一 次 注意 ， 每 个 场地 自身 都 有 一 个 数据 库 系统 。 换 句 话说 ， 每 个 场地 有 其 本 地 的 “ 真 
实 ” 数 据 库 、 本 地 的 用 户 、 本 地 的 DBMS 和 事务 管理 软件 系统 (包括 本 地 的 封锁 、 日 志 、 恢 复 
等 软件 系统 ) ， 还 有 本 地 的 数据 通信 管理 器 (DC 管理 器 ) 。 尤 其 要 说 明 的 是 ， 一 个 用 户 可 以 操作 
本 地 场地 上 的 数据 ， 而 完全 感觉 不 到 本 地 场地 参 
与 了 一 个 分 布 式 系统 ( 至少 这 是 一 个 目标 )。 因 “eo 
此 ， 可 以 认为 分 布 式 数据 库 系统 是 独立 场地 上 的 ” 眉 并 
独立 的 DBMS 之 间 形成 的 一 种 合作 关系 。 由 位 于 
每 个 场地 上 的 一 个 新 的 软件 模块 (该 模块 在 逻辑 
上 是 本 地 DBMS 的 扩展 ) 来 提供 所 需 的 合作 功 
能 ， 这 个 新 的 模块 与 已 经 存在 的 DBMS 一 起 构成 
我 们 所 说 的 分 布 式 数据 库 管理 系统 。 

顺便 说 一 句 ， 通 常 都 假设 所 有 参与 场地 在 物 
理 上 是 分 散 的 一 可 能 确实 在 地 理 上 就 是 分 散 
的 ， 就 像 在 图 21-1 中 所 表示 的 那样 ， 虽 然 实际 上 
只 要 它们 在 逻辑 上 是 分 散 的 就 可 以 了 。 两 个 “ 场 
地 ”甚至 在 物理 上 可 以 处 在 同一 台 机 器 中 (尤其 
是 在 最 初 的 系统 测试 期 间 ) 。 其 实 ， 分 布 式 系统 
中 所 强调 的 重点 是 随 着 时 间 的 推移 来 回 变化 的 。 
早期 的 研究 倾向 于 采用 地 理 的 分 布 ， 但 是 最 早 的 
几 个 商业 系统 采用 的 却 是 本 地 分 布 ，( 比如 ) 许 








图 21-1 一 个 典型 的 分 布 式 数据 库 系 统 
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多 “场地 ”都 在 一 幢 大 楼 里 ， 通 过 局 域 网 (LAN) 连接 在 一 起 。 可 是 后 来 ， 广域网 (WAN) 的 
迅速 兴起 与 发 展 又 把 兴趣 重新 拉 回 到 了 地 理 分 布 的 可 能 性 上 。 但 是 无 论 怎样 ， 从 数据 库 的 角度 来 
看 ， 这 些 都 没有 太 大 的 差别 ， 关 键 是 需要 解决 的 (数据 库 ) 技术 问题 都 是 一 样 的 ， 所 以 为 了 本 
章 的 需要 ， 我 们 可 以 合理 地 认为 图 21-1 表示 的 就 是 一 个 典型 的 系统 。 

注意 : 为 了 叙述 简单 ， 除 非特 别 说 明 ， 我 们 假设 系统 是 同 构 的 ， 也 就 是 说 每 个 场地 上 运行 的 
DBMS 都 是 一 样 的 。 我 们 把 这 叫做 严格 同 构 假 设 。 我 们 将 在 21.6 节 研 究 放宽 这 一 假设 的 可 能 性 。 

1. 优越 性 

为 什么 分 布 式 系统 是 有 价值 的 ? 最 基本 的 答案 是 企业 自身 经 常 就 已 经 是 分 布 式 的 ， 至 少 是 在 
逻辑 上 〈 被 分 成 分 公司 、 部 门 、 工 作 组 等 ) ， 而 且 也 非常 可 能 是 在 物理 上 (被 分 成 工厂 、 车 则 、 
实验 室 等 ) 一 一 这 就 意味 着 数据 通常 就 已 经 是 分 布 的 了 ， 因 为 企业 中 的 每 个 部 门 都 会 很 自然 地 
维护 与 自己 工作 有 关 的 数据 。 这 样 ， 企 业 的 整个 信息 资产 就 被 分 裂 成 通常 所 说 的 信息 孤岛 
(island of information) 。 而 分 布 式 系统 所 做 的 就 是 为 把 这 些小 岛 联系 在 一 起 提供 桥梁 。 换 名 话 
说 ， 它 使 得 数据 库 的 结构 能 够 反映 企业 的 结构 : 本 地 数据 可 以 保存 在 本 地 一 一 它 在 逻辑 上 所 从 属 
的 地 方 ， 而 同时 可 以 在 需要 的 时 候 存 取 异 地 的 数据 。 

举 一 个 例子 将 有 助 于 明确 上 面 的 论述 ， 现 在 来 看 看 图 21-1。 为 了 简单 起 见 ， 假 设 只 有 洛 杉 
矶 和 旧金山 两 个 场地 ， 而 系统 是 银行 系统 ， 包 括 洛 杉 矶 和 旧金山 各 自 本 地 账户 的 账户 数据 。 那 么 
优越 性 是 显而易见 的 : 分 布 式 的 安排 结合 了 处 理 的 有 效 性 (数据 的 存储 靠近 最 经 常 被 用 到 的 地 
方 ) 与 增强 的 可 存 取 性 (很 可 能 要 通过 网 络 从 旧金山 存 取 一 个 洛杉矶 的 账号 ， 反 之 亦 然 ) 。 

像 刚才 所 说 的 那样 ， 能 够 使 数据 库 的 结构 反映 企业 的 结构 ， 可 能 是 分 布 式 系统 最 大 的 优越 
性 。 当 然 还 有 许多 其 他 的 优越 性 ， 稍 后 将 在 本 章 合 适 的 地 方 分 别 讨论 这 些 优越 性 。 但 是 我 们 也 应 
该 看 到 还 有 一 些 不 利 的 地 方 ， 其 中 最 大 的 就 是 分 布 式 系统 都 比较 复杂 ， 至 少 从 技术 的 观点 看 是 这 
样 。 当 然 在 理想 情况 下 ， 这 种 复杂 性 应 该 是 系统 实现 人 员 的 问题 ， 而 不 是 用 户 的 问题 。 但 是 ， 从 
实用 的 角度 看 ， 用 户 很 可 能 会 面 对 复 杂 性 的 某 些 方面 ， 除 非 采取 了 非常 小 心 的 预防 措施 。 

2. 典型 系统 

为 了 在 方便 后 面 的 引用 ， 我 们 在 这 里 简要 地 介绍 一 些 比较 知名 的 分 布 式 系统 。 首 先是 原型 系 
统 。 在 众多 的 研究 系统 中 ， 最 著名 的 三 个 是 (a) SDD-1， 这 是 由 美国 计算 机 公司 (Computer 
Corporation of America) 的 研究 部 门 在 20 世纪 70 年 代 末 期 到 80 年 代 早 期 实现 的 [21. 32]; 
(b) R* (“R 星 ”)， 这 是 System R 原型 系统 的 分 布 式 版 本 ， 是 在 20 世纪 80 年 代 早 期 由 IBM 研 
究 院 (IBM Reaserch) 实现 的 【21.37]。 ; (c) 分 布 式 Ingres， 这 是 Ingres 原型 系统 的 分 布 式 版 
本 ,同样 是 在 20 世纪 80 年 代 早 期 由 加 利 福 尼 亚 大 学 伯克利 分 校 实现 的 [21. 34] 。 

对 于 商业 系统 而 言 ， 今 天 的 大 部 分 SQL 产品 都 提供 了 某 种 对 分 布 式 数 据 库 的 支持 〈 当然 所 
提供 功能 的 程度 不 一 样 ) 。 最 著名 的 包括 (a) Ingres/ Star，Ingres 的 分 布 式 数据 库 组 件 ; (b) Or- 
acle 的 分 布 式 数据 库 选 件 ，(c) DB2 的 分 布 式 数据 支持 。 

注意 : 销售 商 有 经 常 改变 产品 名 称 的 习惯 ， 因 此 我 们 不 能 保证 以 前 用 过 的 名 称 ( 某 些 情形 
下 甚至 可 能 是 产品 ) 现在 仍 被 使 用 。 而 且 ， 以 上 列举 的 原型 系统 和 产品 显然 并 不 意味 着 穷尽 了 
所 有 的 系统 。 列 举 出 这 些 系 统 只 是 由 于 某 些 原 因而 曾经 产生 过 或 者 正在 产生 很 大 的 影响 ， 或 者 是 
有 着 某 些 特别 的 内 在 特征 。 值 得 一 提 的 是 以 上 所 列举 的 这 些 系 统 ， 无 论 是 原型 系统 还 是 产品 ， 都 
是 关系 系统 (至少 它们 都 支持 SQL) 。 事 实 上 ， 有 很 多 理由 说 明 为 什么 ， 如 果 一 个 分 布 式 系统 要 
成 功 ， 它 必须 是 关系 的 ; 关系 技术 是 (有 效 的 ) 分 布 式 技术 的 一 个 先决 条 件 [15.6]。 在 本 章 的 
讲述 过 程 中 ， 我 们 会 看 到 有 很 多 理由 支持 这 一 结论 。 

3. 分 布 式 数据 库 的 基本 原则 

现在 我 们 可 以 谓 述 分 布 式 数据 库 的 基本 原则 [21. 13 ] : 

对 用 户 来 说 ， 一 个 分 布 式 系统 应 该 看 起 来 完全 像 一 个 非 分 布 式 系统 。 

换 句 话说 ， 用 户 在 使 用 分 布 式 系统 的 时 候 ， 应 该 完全 感觉 不 到 系统 是 分 布 的 。 分 布 式 系统 的 





OO ”这 里 的 “性” 就 是 所 谓 的 Kleene 操作 符 一 一 “R* ”表示 “0 个 或 多 个 [System】R”。 
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所 有 问题 都 应 该 是 内 部 或 实现 层次 上 的 问题 ， 而 不 是 外 部 或 用 户 层 次 的 问题 。 

注意 : 上 述 段落 里 的 “用 户 ” 是 特 指 那些 执行 数据 操纵 的 用 户 (最 终 用 户 或 应 用 程序 员 ) 。 
所 有 的 数据 操纵 操作 在 逻辑 上 应 该 是 不 变 的 。 相 反 ， 数 据 定义 在 分 布 式 系统 中 则 需要 进行 一 些 扩 
展 , 使 得 (比如 说 ) 一 个 在 场地 XX 的 用 户 (可 能 是 DBA) 可 以 把 一 个 基本 关系 分 成 不 同 的 “ 片 
段 "， 存 储 在 场地 Y 和 场地 Z 上 ( 见 下 一 节 关 于 分 片 的 讨论 ) 。 

上 面 所 说 的 基本 原则 会 带 来 一 些 补充 的 规则 或 目标 ? ， 它 们 总 共有 12 个 ， 我 们 将 在 下 一 节 
对 它们 进行 讨论 。 为 了 引用 方便 ， 我 们 把 这 些 目标 列 在 这 里 : 

1) 本 地 自治 (local autonomy ) 

2) 不 依赖 中 心 场 地 (no reliance on a central site) 

3) 可 连续 操作 性 〈continuous operation ) 

4) 位 置 独立 性 (location independence ) 

5) 分 片 独立 性 (fragmentation independence) 

6) 复制 独立 性 (replication independence) 

7) 分 布 式 查询 处 理 (distributed guery processing ) - 

8) 分 布 式 事务 管理 (distributed transaction management) 

9) 硬件 独立 性 (hardware independence) 

10) 操作 系统 独立 性 (operating system independence) 

11) 网 络 独立 性 (network independence) 

12) DBMS 独立 性 (DBMS independence) 

需要 了 解 的 是 这 些 目 标 既 不 是 相互 独立 的 ， 也 肯定 不 会 是 毫 无 遗漏 的 ， 而 且 它 们 也 不 可 能 都 
是 同等 重要 的 (不 同 的 用 户 在 不 同 的 环境 中 会 给 予 不 同 的 目标 以 不 同 的 重要 程度 。 事 实 上 ,其 
中 的 一 些 目标 在 某 些 环境 下 也 许 是 完全 不 适用 的 ) 。 但 是 ， 以 这 些 目标 为 基础 ， 通 常 可 以 有 助 于 
理解 分 布 式 技术 ; 而 且 以 它们 为 框架 ， 还 可 以 有 助 于 规划 一 个 特定 的 分 布 式 系 统 的 功能 。 因 此 在 
本 章 的 主要 内 容 中 ， 我 们 将 以 它们 为 组 织 原则 。21. 3 节 将 对 每 个 目标 进行 简要 的 讨论 ; 21.4 节 
将 从 更 为 细节 的 角度 着 眼 于 某 些 特定 问题 ; 21. 5 节 将 讨论 客户 /服务 器 系统 ; 21. 6 节 将 深入 地 考 
查 DBMS 独立 性 ; 最 后 ，21.7 节 提 出 对 SQL 的 支持 问题 ， 而 21. 8 节 进 行 了 小 结 并 给 出 了 一 些 
结论 。 

最 后 要 介绍 的 一 点 是 : 区 分 这 样 两 种 系统 是 非常 重要 的 ， 一 种 是 真正 的 、 普 遍 意 义 上 的 分 布 
式 数据 库 系统 ， 另 一 种 是 只 能 提供 远程 数据 存 取 的 系统 (顺便 提 一 句 ， 所 有 的 客户 /服务 器 系统 
都 能 做 到 这 一 点 ) 。 在 一 个 远程 数据 存 取 系 统 中 ， 用 户 也 许可 以 操作 远程 场地 的 数据 ， 甚 至 是 同 
时 操作 许多 远程 场地 上 的 数据 ， 但 是 “远程 和 本 地 结合 的 接 颖 是 显而易见 的 "， 用 户 肯 定 或 多 或 
少 地 知道 数据 是 在 异地 的 ， 因 而 要 采取 相应 的 操作 。 相 反 ， 在 一 个 真正 的 分 布 式 数据 库 系统 中 ， 
远程 和 本 地 结合 的 接 链 被 隐藏 起 来 了 。( 此 处 所 说 的 “ 接 链 被 隐藏 起 来 ” 正 是 本 章 其 余部 分 里 的 
很 多 地 方 所 关注 的 。) 在 所 有 下 面 的 讨论 中 ， 我 们 将 用 “分 布 式 系统 ”这 个 术语 来 特 指 一 个 真正 
的 、 普 遍 意 义 上 的 分 布 式 数 据 库 系统 (区别 于 一 个 简单 的 远程 数据 存 取 系 统 ) ， 除 非 给 出 明确 
说 明 。 


21.3 十 二 个 目标 


1. 本 地 自治 

一 个 分 布 式 系统 中 的 场地 应 该 是 自治 的 。 本 地 自治 是 指 在 一 个 给 定 场地 上 的 所 有 操作 由 这 个 
场地 自己 控制 ， 场 地 X 上 的 成 功 操作 不 应 该 依赖 于 某 个 其 他 的 场地 了 (除非 场地 了 发 生 停机 会 导 
致 场地 大 也 不 能 运转 了 ， 即 使 场地 和 自己 没有 任何 问题 一 一 这 显然 是 一 种 不 希望 发 生 的 情况 ) 。 
本 地 自治 还 意味 着 本 地 数据 是 由 本 地 拥有 和 管理 的 ， 并 具有 本 地 的 可 计算 性 ; 所 有 的 数据 都 是 





“规则 ”是 参考 文献 [21. 13] 里 的 术语 ， 那 篇 文章 首先 引 人 这 些 规则 (“基本 原则 ”就 是 规则 0)。 不 过 ， 术 语 
“目标 ” 比 “ 规 则 ”要 更 好 些 一 一 “规则 ” 太 教条 了 。 本 章 我 们 将 采用 “目标 ”这 个 术语 。 
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“真正 ”属于 某 个 本 地 数据 库 的 ， 即 使 它们 可 以 被 其 他 远程 的 场地 访问 。 本 地 数据 的 安全 性 、 完 
整 性 和 存储 形式 之 类 的 问题 也 是 在 本 地 场地 的 控制 和 管辖 之 下 的 。 

实际 上 ， 本 地 自治 的 目标 是 无 法 完全 达到 的 一 一 在 许多 情况 下 ， 一 个 给 定 的 场地 X 必须 交 
出 一 定 程 度 的 控制 权 给 某 个 场地 Y。 因 此 自治 目标 也 许 这 样 表述 更 为 精确 : 场地 应 该 在 尽 可 能 大 
的 程度 上 是 自治 的 。 可 以 参看 对 参考 文献 [21. 13] 的 注释 以 获取 更 多 的 细节 。 

2. 不 依赖 中 心 场地 

本 地 自治 意味 着 所 有 的 场地 都 必须 得 到 同等 的 对 待 。 因 此 ， 尤 其 是 不 应 该 为 了 某 些 集中 服 
务 一 一 比如 ， 集 中 查询 处 理 、 集 中 事务 管理 或 者 是 集中 命名 服务 一 一 而 依赖 于 一 个 中 心 “ 主 ” 
场地 ， 以 至 于 整个 系统 会 依赖 于 一 个 中 心 场地 。 这 样 第 二 个 目标 其 实 是 第 一 个 目标 的 一 个 推论 
(如 果 第 一 个 满足 了 ， 第 二 个 毫 无 疑问 会 得 到 满足 ) 。 但 是 “不 依赖 中 心 场地 ”本 身 就 是 非常 重 
要 的 ， 即 使 是 完全 的 本 地 自治 无 法 达到 。 因 此 ， 把 它 作 为 一 个 单独 的 目标 提出 来 是 很 有 必 
要 的 。 

之 所 以 不 接受 对 中 心 场地 的 依赖 至 少 是 基于 以 下 两 个 原因 : 首先 ， 中 心 场 地 可 能 会 成 为 一 个 
颈 ; 其 次 ， 也 是 更 重要 的 ， 系 统 将 会 是 脆弱 的 一 一 如 果 中 心 场地 停止 运转 了 ， 整 个 系统 也 将 停 
止 下 来 ， 即 出 现 单 点 故障 (single point of failure) 。 

3. 可 连续 操作 性 

通常 分 布 式 系 统 的 一 个 好 处 是 它们 可 以 提供 更 大 的 可 靠 性 和 更 高 的 可 用 性 : 
可 靠 性 ( 即 系 统 可 以 在 任何 时 刻 启动 并 运行 的 可 能 性 ) 是 得 到 证 明了 的 ， 因 为 分 布 式 系 
统 不 是 一 个 要 么 做 要 么 不 做 的 系统 一 一 在 某 些 单独 的 部 分 ， 比 如 说 单独 的 场地 出 现 故 障 的 
时 候 ， 其 他 部 分 仍然 可 以 继续 操作 ( 当然 是 在 一 个 被 降低 的 水 平 上 )。 
可 用 性 ( 即 系统 在 某 个 特定 的 时 期 内 能 够 启动 并 始终 运行 的 可 能 性 ) 也 是 得 到 证 明了 的 ， 
一 方面 是 由 于 可 靠 性 的 原因 ， 另 一 方面 是 由 于 分 布 式 系统 具有 数据 复制 的 可 能 性 ( 见 对 
第 6 个 目标 的 进一步 讨论 ) 。 

可 靠 性 与 可 用 性 适用 于 在 系统 某 处 发 生 了 意外 停机 ( 即 出 现 了 某 种 故障 ) 的 情况 。 意 外 停 
机 显然 是 令 人 讨厌 的 ， 但 却 是 难以 避免 的 。 与 之 相对 ， 计 划 停 机 应 该 是 永远 不 需要 的 ， 也 就 是 
说 ， 应 该 永远 也 没有 必要 停止 系统 的 运行 来 执行 某 个 任务 ， 比 如 增加 一 个 新 的 场地 或 是 在 一 个 现 
有 场地 上 把 DBMS 升级 到 新 版 本 之 类 的 任务 。 

4. 位 置 独立 性 

位 置 独立 性 (也 叫做 位 置 透明 性 ) 的 基本 概念 是 很 简单 的 : 用 户 不 需要 知道 数据 在 物理 上 
存储 在 哪里 ， 但 是 从 逻辑 的 角度 看 ， 用 户 仍 然 可 以 进行 操作 ， 就 好 像 数 据 是 存储 在 用 户 自 己 本 地 
的 场地 上 一 样 。 之 所 以 要 达到 位 置 独立 性 是 由 于 它 简化 了 用 户 程序 和 终端 操作 ， 尤 其 是 它 允 许 数 
据 在 场地 之 间 迁 移 ， 而 不 会 造成 程序 和 操作 的 失效 。 需 要 这 种 可 迁移 性 是 为 了 使 数据 可 以 在 网 络 
上 移动 以 适应 改变 性 能 的 要 求 。 

注意 : 你 一 定 会 意识 到 这 样 一 点 ， 即 位 置 独 立 性 只 是 通常 的 (物理 上 的 ) 数据 独立 性 概念 
在 分 布 情况 下 的 扩展 。 实 际 上 我 们 将 看 到 ， 每 个 列 出 的 目标 ， 只 要 其 中 含有 “独立 性 ”的 字眼 ， 
都 可 以 看 作 是 数据 独立 性 的 一 种 扩展 。 对 于 位 置 独立 性 我 们 在 21.4 节 中 还 要 特别 地 多 说 一 点 
(在 “目录 表 管 理 ” 小 节 中 ) 。 

5. 分 片 独立 性 

如 果 为 了 物理 存储 的 需要 ， 可 以 把 给 定 的 关系 分 割 成 小 块 或 片段 ， 则 说 这 个 系统 是 支持 数据 
分 片 的 ， 并 且 不 同 的 分 片 可 以 存储 在 不 同 的 场地 上 。 使 用 分 片 是 出 于 性 能 上 的 考虑 : 数据 可 以 在 
最 经 常 被 用 到 的 地 方 存储 ， 这 样 大 部 分 的 操作 就 会 是 本 地 的 ， 而 网 络 开销 也 会 降低 。 上 比如 ， 考 虚 
雇员 关系 EMP， 样 本 数据 在 图 21-2 的 上 半 部 分 。 在 支持 分 片 的 系统 中 ， 我 们 可 以 定义 如 下 两 个 
分 片 : 

FRAGMEMT EMP AS 

N_EMP AT SITE :New York' RERE DEPT# = DEPT# (‘D1') 


DEPT# = DEPT# {'D3') ， 
L EMP AT SITE 'London' WEERE DEPT# = DEPT# ('D2') ; 
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图 21-2 一 个 分 片 的 示例 


(参照 图 21-2 的 下 半 部 分 ) 。 注 意 : 假设 EMP 元 组 与 物理 存储 之 间 是 以 某 种 直接 方式 映射 的 ， 并 
且 Dl 和 D3 是 New York 的 部 门 ， 而 D2 是 伦敦 的 部 门 ， 因 此 纽约 雇员 的 元 组 存储 在 纽约 的 场地 
上 ， 而 伦敦 雇员 的 元 组 存储 在 伦敦 的 场地 上 。 系 统 内 部 的 分 片 名 称 是 N_EMP 和 L_EMP。 

分 片 有 水 平和 垂直 两 种 基本 的 类 型 ， 分 别 对 应 于 关系 操作 中 的 选择 和 投影 (图 21-2 给 出 的 
是 水 平分 片 )。 更 一 般 地 ， 一 个 分 片 可 以 由 选择 操作 和 投影 操作 的 任意 组 合 来 产生 一 一 这 里 的 任 
意 不 包括 下 列 的 情况 : 

me 对 于 选择 操作 而 言 ， 所 有 的 选择 操作 必须 构成 一 个 第 13 章 所 说 的 正 交 分 解 。 

se 对 于 投影 操作 而 言 ， 所 有 的 投影 操作 必须 构成 一 个 第 12 、13 章 所 说 的 无 损 分 解 。 

这 两 条 规则 的 最 终 影响 是 一 个 关系 的 所 有 分 片 将 是 独立 的 ， 意 思 是 说 没有 任何 一 个 分 片 ， 或 
者 是 该 分 片 的 一 个 选择 或 投影 ， 可 以 从 其 他 分 片 中 产生 。 注 意 : 如 果真 的 想 要 在 不 同 的 地 方 存储 
相同 的 信息 片段 ， 可 以 用 系统 的 复制 机 制 ( 见 下 面 第 6 个 目标 的 介绍 ) 。 

在 分 片上 对 原 有 关系 的 重 构 是 通过 适当 的 连接 和 合并 操作 来 完成 的 〈 垂 直 分 片 进行 连接 ， 
水 平分 片 进行 合并 ) 。 顺 便 提 一 句 ， 可 以 看 到 在 进行 合并 操作 的 时 候 ， 不 需要 考虑 消除 元 余 ， 这 
要 归功 于 上 面 两 条 规则 中 的 第 一 条 ， 也 就 是 说 ， 这 里 的 合并 是 不 相交 并 (disjoint union) 。 

在 垂直 分 片 的 问题 上 我 们 要 稍微 精心 一 些 。 确 实 如 上 所 述 ， 这 样 的 一 个 分 片 应 该 是 无 损 的 ， 
因此 ， 比 如 说 对 于 关系 EMP ， 按照 投影 |EMP#, DEPT#| 和 {SALARY| 进行 分 片 就 不 是 有 效 
的 。 但 是 ,在 某 些 系统 中 ， 认 为 存储 的 关系 有 一 个 隐藏 的 、 系 统 提供 的 “元 组 ID” 或 是 TID 属 
人 性， 简单 地 说 ， 一 个 元 组 的 TID 就 是 它 的 地 址 。 这 个 TID 属性 显然 是 这 些 关 系 的 候选 码 。 比 如 ， 
如 果 关 系 BMP 包括 这 样 一 个 属性 ， 则 关系 按照 投影 1TID ，EMP#，DEPT#} 和 |TID，SALA- 
RY} 进行 分 片 就 是 有 效 的 ， 因 为 显然 分 片 是 无 损 的 。 同 样 要 注意 到 这 样 一 个 事实 ，TID 属性 是 
隐藏 的 这 一 点 与 信息 原则 (The Information Principle) 并 不 矛盾 ， 因 为 分 片 独立 性 (这 一 点 我 们 
一 会 儿 将 要 进行 讨论 ) 意味 着 用 户 并 不 知道 分 片 。 

另外 ,易于 分 片 和 易于 重 构 是 分 布 式 系统 采用 关系 模式 的 众多 原因 中 的 两 个 ,关系 模型 提供 
了 完成 分 片 和 重 构 任务 所 需 的 合适 的 操作 [15.6]。 

现在 我 们 得 出 了 主要 观点 : 支持 数据 分 片 的 系统 也 必定 要 支持 分 片 独立 性 (也 叫做 分 片 透 
明 性 ) ， 即 至 少 在 逻辑 上 ， 用 户 的 行为 应 该 像 数 据 没 有 被 划分 的 时 候 一 样 。 分 片 独立 性 (与 位 置 
独立 性 类 似 ) 的 意义 在 于 它 简化 了 用 户 程序 和 终端 操作 。 尤 其 是 ， 为 了 满足 性 能 变化 的 需要 ， 
它 允 许 数 据 在 任何 时 候 被 重新 划分 (以 及 在 分 片 任何 时 候 被 重新 分 布 )， 而 无 须 使 上 面 所 说 的 任 
何 用 户 程 序 或 操作 失效 。 

分 片 独立 性 意味 着 用 户 将 看 到 一 个 数据 视图 ， 在 这 个 视图 中 各 个 分 片 是 通过 合适 的 连接 和 合 
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并 逻辑 地 重新 组 合 在 一 起 的 。 而 为 了 满足 用 户 的 任何 请 求 ， 系 统 优化 器 要 负责 决定 应 该 物理 地 访 
问 哪 一 个 分 片 的 数据 。 对 于 图 21-2 所 给 出 的 分 片 的 例子 ， 如 果 用 户 的 请 求 是 查询 


EMP WHERE SALARY > 40K AND DEPT# = DEPT# ('D1') 


则 从 分 片 的 定义 中 当然 该 定义 存储 在 目录 表 里 ) ， 优 化 器 知道 整个 结果 可 以 从 New York 的 场 
地 上 获得 ， 而 完全 不 必 访 问 London 这 一 场地 。 

让 我 们 再 仔细 地 看 看 这 个 例子 。 首 先 ， 用 户 所 认识 到 的 关系 EMP 可 能 被 简单 地 认为 是 底层 
分 片 N_EMP 和 L_EMP 的 一 个 视图 : 


VAR EMP "VIEW" /* 伪 码 */ 
N_EMP UNION L _ EMP ; 


则 优化 器 将 用 户 的 原始 请 求 转化 为 如 下 形式 ， 


( N_EMP UNION L EMP ) WHERE SALARY > 40 
AND DEPT# = pg 和 ('D1') 


这 个 表达 式 可 以 进一步 被 转化 为 : 
( MN EMP WHERE SALARY > 40K AND DEPT# = DEPT# (‘D1') ) 
To 


N 
{ Db EMP WHERE SALARY > 40K AND DEPT# = DEPT# ('D1') ) 


(因为 选择 操作 对 合并 服从 分 配 律 )。 接 下 来 ,通过 目录 表 中 分 片 L_EMP 的 定义 ， 优 化 器 知道 
UNION 操 作 的 第 二 个 操作 数 等 价 于 : 


EMP WHERE SALARY > 40K AND 
DEPT# = DEPT# (‘D1’') AND DEPT# = DEPT# (‘D2') 


这 个 表达 式 的 计算 结果 是 一 个 空 关 系 ， 因 为 WHERE 子 句 中 的 选择 条 件 永远 也 不 可 能 为 真 。 这 样 
整个 表达 式 可 以 简化 为 : 


N EMP WHERE SALARY > 40K AND DEPT# = DEPT# ('D1') 


现在 优化 器 知道 只 要 访问 New York 的 场地 就 可 以 了 。 习 题 : 考虑 一 下 在 处 理 如 下 请 求 的 时 候 ， 
优化 器 的 工作 会 涉及 哪些 方面 ? 


EMP WHERE SALARY > 40K 


像 在 前 面 讨论 中 说 到 的 ， 支 持 在 分 片 关系 上 的 操作 和 支持 在 连接 、 合 并 视图 上 的 操作 ， 这 两 
者 所 过 到 的 问题 有 许多 共同 点 (其实, 这 两 个 问题 是 同一 个 问题 ， 只 是 它们 表现 在 整个 系统 体 
系 结构 的 不 同方 面 而 已 )。 特 别 是 ， 对 经 过 分 片 的 关系 的 修改 和 对 连接 、 合 并 视图 的 修改 是 一 样 
的 ( 见 第 10 章 )。 这 也 就 同样 意味 着 (只 是 这 样 说 并 不 严格 ) ， 对 一 个 元 组 的 修改 可 能 会 使 这 个 
元 组 从 一 个 分 片 迁 移 到 另 一 个 分 片 ( 甚 至 可 能 从 一 个 场地 到 另 一 个 场地 ) ， 如 果 被 修改 的 元 组 不 
再 满足 它 原来 所 属 分 片 的 分 片 谓词 的 话 。 

6. 复制 独立 性 

一 个 系统 是 支持 数据 复制 的 ， 如 果 一 个 给 定 的 关系 ， 更 一 般 地 ， 或 一 个 给 定 关系 的 某 个 分 片 
可 以 由 存储 在 许多 不 同 场地 上 的 不 辣 的 副本 或 拷贝 来 表示 。 比 如 : 


REPLICATE N EMP AS 
LN _ EMP AT SITE 'London' 


REPLICATE L EMP AS 
NL EMP AT SITE 'New York' : 


(如 图 21-3 所 示 ) 。 系 统 的 内 部 副本 叫做 NL_EMP 和 LN_EMP。 
采取 复制 的 理由 至 少 有 两 点 : 首先 ， 它 可 以 带 来 更 优越 的 性 能 〈 应 用 程序 可 以 在 本 地 的 副 
本 上 进行 操作 ， 而 不 必 与 远程 场地 通信 ) ; 第 二 ， 它 还 可 以 带 来 更 高 的 可 用 性 〈 一 个 被 复制 的 对 





朝 21 介 分布 式 雪 据 康 415 





象 总 是 可 以 用 于 处 理 的 一 一 至 少 可 以 用 于 检索 一 一 只 要 至 少 有 一 个 副本 还 是 可 用 的 ) 。 当 然 ， 复 
制 带 来 的 最 大 的 问题 是 当 一 个 复制 对 象 被 修改 后 ， 这 个 对 象 的 所 有 副本 必须 进行 修改 : 这 就 是 更 
新 传播 问题 。 对 于 这 个 问题 在 21. 4 节 将 会 有 更 多 的 讨论 。 
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EMP# | DEPT# | SALARY 
E3 D2 30K 
Ed4 D2 35K 


NL EMP (L EMP replica) 








LN_EMP (N_EMP replica) 
图 21-3 一 个 复制 的 示例 


顺便 说 明 一 下 ， 分 布 式 系统 中 的 复制 代表 了 受 控 元 余 这 个 概念 的 一 种 特殊 应 用 ， 受 控 元 余 是 
我 们 在 第 1 章 中 曾经 讨论 过 的 。 : 

现在 在 理想 情况 下 ， 复 制 与 分 片 一 样 ， 应 该 是 “对 用 户 透 明 的 ”。 换 句 话说 ， 支 持 数据 复制 
的 系统 也 应 该 支持 复制 独立 性 〈 也 叫做 复制 透明 性 ) , 即 至 少 在 逻辑 上 ， 用 户 的 行为 应 该 像 数 据 
并 没有 被 复制 时 一 样 。 之 所 以 要 提倡 复制 独立 性 〈 与 位 置 独立 性 和 分 片 独立 性 一 样 ) ， 是 因为 它 
简化 了 用 户 程序 和 终端 操作 ; 尤其 是 为 了 适应 变化 的 需求 ， 可 以 随时 创建 或 销 筑 副本 ， 而 无 须 使 
任何 上 面 所 说 的 用 户 程序 或 操作 失效 。 

复制 独立 性 意味 着 ,为 了 满足 用 户 的 任何 请 求 ， 系 统 优化 器 要 负责 决定 应 该 物理 地 访问 哪 一 
个 副本 的 数据 。 这 一 问题 在 这 里 不 再 讨论 。 

最 后 ， 需 要 指出 ， 现 在 许多 商用 产品 支持 一 种 不 具备 完全 的 复制 独立 性 的 复制 形式 
( 即 不 是 完全 “对 用 户 透明 ”) 。 关 于 这 一 问题 的 进一步 说 明 请 参见 21.4 节 中 的 “更 新 传 
播 ” 小 节 。 

7. 分 布 式 查询 处 理 

在 这 里 有 两 个 要 点 。 

首先 ,来 看 看 查询 “给 出 供应 红色 零件 的 伦敦 供应 商 ”"。 假 设 用 户 是 在 纽约 的 场地 而 数据 是 
在 伦敦 的 场地 ， 再 假设 满足 请 求 的 供应 商 有 个。 一 方面 ， 如 果 系 统 是 关系 的 ， 则 查询 将 主要 涉 
及 两 条 消息 : 一 条 是 将 查询 请 求 从 纽约 发 往 伦敦 ， 另 一 条 是 将 n 个 元 组 的 结果 集合 从 伦敦 发 回 到 
纽约 。 另 一 方面 ， 如 果 系 统 不 是 关系 的 ， 而 是 一 次 一 记录 的 系统 ， 则 查询 将 涉及 2n 条 消息 : n 
条 从 纽约 到 伦敦 要 求 “ 下 一 个 ”供应 商 , 条 从 伦敦 到 纽约 返回 “下 一 个 ”供应 商 。 这 个 例子 
说 明 ， 一 个 关系 系统 的 性 能 可 能 比 一 个 非 关 系 系统 要 高 出 若干 个 数量 级 。 

其 次 ， 优 化 在 一 个 分 布 式 系统 中 比 在 一 个 集中 式 系统 中 更 重要 。 基 本 的 观点 是 ， 在 一 个 像 上 
面 一 样 涉及 多 个 场地 的 查询 中 ， 会 有 很 多 种 在 系统 中 移动 数据 的 方法 可 以 满足 查询 请 求 ， 而 找到 
一 个 高 效 的 策略 是 至 关 重 要 的 。 比 如 ， 对 于 一 个 将 场地 X 上 的 关系 rx 和 场地 了 上 的 关系 六 合并 
的 查询 请 求 来 说 ， 执 行 的 方法 可 以 是 把 x 迁移 到 了 或 是 把 ry 迁移 到 和 或 是 把 它们 都 迁移 到 第 三 
个 场地 Z 上 等 等 。 在 21.4 节 中 有 对 于 这 一 点 的 特别 说 明 ， 它 涉及 前 面 提 到 过 的 查询 (“给 出 供 
应 红色 零件 的 伦敦 供应 商 的 供应 商号 ”)。 简 要 概括 一 下 这 个 例子 ， 在 一 组 特定 的 可 能 的 假设 下 
分 析 了 6 种 不 同 的 查询 处 理 策 略 ， 响 应 时 间 最 短 的 只 要 1/10 秒 ， 最 长 的 竟然 要 将 近 6 个 小 时 1! 
优化 显然 是 至 关 重 要 的 ， 而 这 也 可 以 看 作 是 另 一 个 理由 来 解释 为 什么 分 布 式 系统 通常 都 是 关系 的 
(主要 是 关系 的 查询 请 求 是 可 以 优化 的 ， 而 非 关系 的 则 不 行 ) 。 

8. 分 布 式 事务 管理 

事务 管理 主要 有 两 个 方面 ， 恢 复 控 制 和 并 发 控制 。 两 者 在 分 布 式 环境 中 都 需要 扩展 处 理 方 
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式 。 为 了 解释 扩展 处 理 方式 ， 我 们 需要 引入 一 个 新 的 术语 一 一 代理 。 在 一 个 分 布 式 系统 中 ， 一 个 
单独 的 事务 可 以 涉及 执行 多 个 场地 上 的 代码 ， 尤 其 是 它 可 以 对 多 个 场地 进行 修改 。 因 此 每 个 事务 
都 可 以 被 看 作 是 由 许多 代理 组 成 ， 这 里 代理 是 指 在 一 个 场地 上 代表 一 个 事务 执行 的 进程 。 系 统 需 
要 知道 哪 两 个 代理 是 属于 同一 个 事务 的 一 一 比如 ， 很 显然 两 个 属于 同一 个 事务 的 代理 之 间 不 能 发 
生死 锁 。 

现在 先 专门 看 看 恢复 控制 。 为 了 保证 一 个 给 定 的 事务 在 分 布 式 环境 中 是 原子 的 〈 都 做 或 者 
都 不 做 ) ， 系 统 必须 保证 这 个 事务 的 所 有 代理 要 么 全 部 一 起 提交 ， 要 么 全 部 一 起 同 深 。 通 过 第 15 
章 15. 6 节 讨 论 过 的 两 阶段 提交 协议 (尽管 不 是 分 布 式 环境 ) 可 以 获得 这 样 的 效果 。 在 21.4 节 中 
将 对 分 布 式 系统 的 两 阶段 提交 协议 做 进一步 说 明 。 

对 于 并 发 控制 而 言 ， 同 在 非 分 布 式 系统 中 一 样 ， 在 大 多 数 分 布 式 系统 中 并 发 控制 主要 是 基于 
封锁 的 〈 一 些 产品 开始 实现 多 版 本 控制 【16. 1j; 但 是 在 实践 中 ， 传 统 的 封锁 机 制 看 起 来 仍然 是 
大 部 分 系统 的 技术 选择 ) 。 我 们 同样 将 在 21. 4 节 中 对 这 一 问题 进行 更 详细 的 讨论 。 

9. 硬件 独立 性 

对 于 这 个 问题 确实 没有 太 多 要 说 的 一 一 题目 已 经 说 明了 一 切 。 现 实 世界 中 安装 的 计算 机 包括 
了 种 类 繁多 的 机 型 一 一 IBM 的 机 器 、 富 士 通 的 机 器 、HP 的 机 器 以 及 各 种 各 样 的 PC 和 工作 站 ， 
等 等 一 一 从 而 确实 需要 能 够 把 所 有 这 些 系 统 中 的 数据 集成 起 来 ， 并 给 用 户 提供 一 个 “单一 系统 
映像 ”( single-system image) [21.9]。 尖 此 就 非常 需要 能 够 在 不 同 的 硬件 平台 上 运行 同样 的 
DBMS ， 进 一 步 地 讲 ， 要 能 够 让 这 些 不 同 的 机 器 作为 对 等 的 合作 者 参与 到 分 布 式 系统 中 来 。 

10. 操作 系统 独立 性 

可 以 部 分 地 将 这 个 目标 看 作 是 硬件 独立 性 目标 的 推论 。 很 显然 ， 同 样 的 DBMS 应 该 不 仅仅 
能 够 运行 在 不 同 的 硬件 平台 上 ， 而 且 也 可 以 运行 在 不 同 的 操作 系统 平台 上 一 一 包括 在 同样 硬件 平 





台 上 的 不 同 操作 系统 一 一 从 而 让 这 些 ( 比如 说 ) OS/390 版 本 的 、UNIX 版 本 的 、Windows 版 本 
的 DMBS 可 以 参与 到 同一 个 分 布 式 系统 中 。 
11. 网 络 独立 性 


如 果 系 统 能 够 支持 许多 完全 不 同 的 场地 ， 这 些 场地 是 基于 完全 不 同 的 硬件 、 运 行 完 全 不 同 的 
操作 系统 的 ， 这 显然 就 需要 系统 也 能 够 支持 各 种 完全 不 同 的 通信 网 络 。 

12. DBMS 独立 性 

对 于 这 个 目标 ， 我 们 需要 考虑 放松 对 同 构 假 设 的 限制 会 有 什么 样 的 结果 。 可 以 证 明 这 个 假设 
有 些 过 于 严格 了 : 实际 上 只 要 不 同 场地 上 的 DBMS 实体 都 支持 相同 的 接口 就 足够 了 -一 -这 些 实 
体 并 不 需要 是 同一 个 DBMS 软件 的 副本 。 比 如 ， 如 果 Ingres 和 Oracle 都 支持 官方 的 SQL 标准 ， 
则 让 一 个 Ingres 场地 和 一 个 Oracle 场地 在 一 个 分 布 式 系统 的 环境 中 交互 是 很 可 能 的 。 换 名 话说 ， 
分 布 式 系统 至 少 在 某 种 程度 上 可 以 是 异 构 的 。 

支持 异 构 性 无 疑 是 非常 必要 的 。 事 实 上 ， 现 实 世 界 中 的 绝 大 部 分 计算 机 设备 不 仅仅 是 运行 着 
许多 不 同 的 机 器 和 许多 不 同 的 操作 系统 ， 也 同样 经 常 运行 着 不 同 的 DBMS; 而 如 果 这 些 不 同 的 
DBMS 都 能 够 在 某 种 程度 上 参与 到 同一 个 分 布 式 系统 中 ， 这 将 是 一 件 非 常 好 的 事情 。 换 句 话说 ， 
理想 的 分 布 式 系 统 应 该 提供 DBMS 独立 性 。 

但 是 ，DBMS 的 独立 性 是 一 个 非常 大 的 专题 ， 也 是 实践 中 非常 重要 的 专题 ， 在 21.6 节 我 们 
会 专门 讨论 DBMS 独立 性 。 


21.4 分 布 式 系统 面 对 的 问题 


在 这 一 节 ， 我 们 要 对 在 21. 3 节 中 提 到 的 某 些 问题 进行 更 进一步 的 鲜 述 。 最 重要 的 问题 是 通 
信和 网 络 的 速度 太 慢 一 一 至 少 “ 远 苏 离 网 ”(long haul) 或 者 广域网 是 这 样 。 一 个 典型 的 广域网 的 
数据 传输 速率 大 约 是 每 秒 5 ~ 10KB; 与 之 相 比 ， 典 型 的 磁盘 驱动 器 的 数据 传输 率 大 约 是 每 秒 5 ~ 
10MB 〈 另 一 方面 ， 某 些 局 域 网 支持 与 磁盘 驱动 器 相同 数量 级 的 数据 传输 率 ) 。 这 样 产生 的 结果 
就 是 ， 在 分 布 式 系统 中 最 重要 的 目标 (至少 在 使 用 广域网 的 情况 下 ， 以 及 某 些 使 用 局 域 网 的 情 
况 下 ) 是 尽量 减少 对 网 络 的 使 用 一 一 即 尽 可 能 减少 消息 的 数量 和 大 小 。 这 个 目标 接着 会 引出 不 
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少 其 他 方面 的 问题 ， 以 下 是 其 中 的 一 部 分 : 

a 查询 处 理 

ms 日 录 表 管理 

a 更 新 传播 

a 恢复 控制 

se 并 发 控制 

1， 查 询 处 理 : 

尽 可 能 减少 使 用 网 络 的 目标 意味 着 查询 优化 进程 本 身 需 要 是 分 布 的 ， 查 询 执行 进程 也 一 样 。 
换 句 话说 ， 整 个 查询 优化 进程 一 般 将 由 两 个 步骤 构成 ; 首先 是 全 局 优化 ， 之 后 是 各 个 参与 场地 上 
的 本 地 优化 。 比 如 ， 假 设 场地 X 提出 一 个 查询 Q， 再 假设 Q 涉及 一 个 连接 操作 ， 连 接 的 分 别 是 
场地 了 上 拥有 一 万 个 元 组 的 关系 ry 与 场地 Z 上 拥有 一 千 万 个 元 组 的 关系 rz。 场 地 X 上 的 优化 器 
将 选择 一 个 全 局 策略 来 执行 C; 显然 它 应 该 决定 把 ry 移 向 Z 而 不 是 把 妆 移 向 了 (或 者 取决 于 连 
接 结果 的 基数 的 数目 ， 把 ry 和 rz 都 移 向 X 会 更 好 )。 然 后 ,一 旦 它 决定 将 my 移 向 Z， 则 连接 操 
作 在 场地 Z 的 实际 执行 过 程 就 取决 于 场地 Z 上 的 本 地 优化 器 了 。 

下 面 对 这 一 点 的 更 详细 的 举例 说 明 是 基于 Rothnie 和 Goodman 所 写 的 论文 [21.31] 中 给 出 
的 例子 。 注 意 : 由 于 硬件 的 发 展 以 及 现代 数据 库 规模 的 变化 ， 这 里 列 出 的 实际 数据 现在 可 能 已 经 
过 时 了 ， 但 是 数据 反映 出 来 的 信息 仍然 是 有 效 的 。 

s 数据 库 〈 简 化 的 供应 商 与 零件 ) : 


S { S#, CITY } 在 场地 存储 了 10 000 个 元 组 
Pp { P#，COLOR } 在 场地 B 存储 了 100 000 个 元 组 
SP { S#, P# } 在 场地 存储 了 1 000 000 个 元 组 


假设 每 个 存储 的 元 组 有 25 个 字 节 长 (200 位 ) 。 
a 查询 (“ 给 出 所 有 供应 红色 零件 的 伦敦 供应 商 的 供应 商号 ”) : 


{ (8 JOIN SP JOIN P ) WHERE CITY = 'London' AND 


COLOR = COLOR ('Red') ) { S# } 
a 中 间 结 果 的 估计 元 组 数 : 
红色 零件 数 =10 
London 供应 商 的 发 货 数 = 100 000 
e 通信 状态 : 


数据 传输 率 =50 000 bit/s 

访问 时 延 =0. 1s 

现在 考查 以 下 可 以 用 来 处 理 这 个 查询 的 6 种 可 能 的 策略 ， 并 利用 下 面 的 公式 对 每 种 策略 i 计 
算出 其 通信 时 间 Ti; 

(总 访问 时 延 ) + (总 数据 量 /数据 传输 率 ) 
也 就 是 (以 秒 为 单位 ): 

(消息 数 / 10 ) + (位 数 / 50000 ) 

1) 把 零件 表 发 送 到 场地 4， 并 在 场地 4 完成 查询 。 


zl = 0.1+ { 100000 * 200 ) / 50000 
= 400 seconds approx. (6.67 minutes) 


2) 把 供应 商 表 和 发 货 表 发 到 场地 B， 并 在 场地 8 完成 查询 。 


T2 = 0.2+( {( 10000 + 1000000 }) * 200 ) / 50000 
= 4040 seconds approx. (1.12 hours) 


— 


3) 在 场地 4 先 对 供应 商 表 和 发 货 表 进行 连接 ， 选 择 结果 中 供应 商 为 伦敦 的 元 组 ， 然 后 对 每 
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个 这 样 的 元 组 检查 场地 B 上 是 否 有 相应 的 零件 为 红色 的 元 组 。 每 次 这 样 的 检查 将 涉及 两 条 消息 ， 
一 条 查询 和 一 条 响应 。 这 些 消息 的 传送 时 间 与 访问 时 延 相 比 应 该 可 以 忽略 。 


T3 = 20000 seconds approx. (5.56 hours) 

4) 在 场地 B 选择 零件 表 中 颜色 为 红色 的 元 组 ， 然 后 对 每 一 个 选 出 的 元 组 顺 次 查找 场地 4， 
看 在 发 货 表 中 是 否 有 相应 的 零件 与 London 的 供应 商 联 系 在 一 起 的 元 组 。 同 样 每 次 这 样 的 检查 也 
涉及 两 条 消息 ， 这 些 消息 的 传送 时 间 与 访问 时 延 相 比 应 该 可 以 忽略 。 

T4 = 2 seconds approx. 

5) 在 场地 4 连接 供应 商 表 和 发 货 表 ， 选 择 结果 中 供应 商 为 伦敦 的 元 组 ， 并 对 结果 表 的 S# 和 
P# 进 行 投影 ， 然 后 将 结果 表 发 送 到 场地 8。 在 场地 8 上 完成 查询 。 


T5 0.1+ ( 100000 * 200 ) / 50000 


= 400 seconds approx. (6.67 minutes) 


6) 在 场地 B 上 选择 零件 表 中 颜色 为 红色 的 元 组 ,然后 把 结果 表 发 送 到 场地 4， 在 场地 A 上 


.1+( 10* 200 ) /50000 
1 second approx. 





图 21-4 对 结果 进行 了 汇总 。 

1) 通信 时 间 的 差异 是 巨大 的 (最 慢 的 5 
要 比 最 快 的 慢 二 百 万 倍 ) 。 S 

2) 对 于 一 种 策略 的 选择 而 言 ， 数 据 传 化 
输 率 和 访问 时 延 都 是 非常 重要 的 因素 。 红包 的 夫 件 ， 检 查 是 否 存在 | 2.00 = 

3) 对 于 最 差 的 策略 而 言 与 通信 时 间 相 a 过 6.67 min 
比 ,计算 和 1O 时 间 是 几乎 可 以 忽略 的 。 注 红色 零件 发 0.10 s (最 佳 ) 
意 : 实际 上 ， 对 于 比较 好 的 策略 来 说 ， 是 不 图 21-4 分 布 式 查询 处 理 策略 〈 小 结 ) 

是 这 样 就 不 一 定 了 [21.33]。 对 于 快速 局 
域 网 来 说 ， 就 不 能 忽略 计算 和 IO 时 间 。 

此 外 ， 有 些 策略 允许 在 两 个 场地 上 并 行 地 进行 处 理 ， 这 样 ， 对 用 户 的 响应 时 间 也 许 在 实际 上 
会 比 一 个 集中 式 系统 要 少 。 但 是 ， 要 注意 的 是 此 时 我 们 对 娜 一 个 场地 来 接受 最 后 的 结果 不 予 
考虑 。 

2. 目录 表 管 理 

在 一 个 分 布 式 系统 中 ， 系 统 目录 表 中 不 仅 包括 基本 表 、 视 图 、 完 整 性 约束 、 权 限 等 通常 的 目 
录 数 据 ， 而 且 还 包括 许多 必需 的 控制 信息 ， 使 系统 能 够 提供 所 需 的 位 置 独立 性 、 分 片 独立 性 和 复 
制 独立 性 。 现 在 的 问题 是 ， 目 录 表 自己 存储 在 哪里 ， 怎 样 存储 ? 下 面 是 几 种 存储 方法 : 

1) 集中 式 : 整个 目录 表 只 在 一 个 单独 的 中 心 场地 上 存储 一 次 。 

2) 完全 复制 ， 在 每 一 个 场地 上 都 存储 一 个 完整 的 目录 表 。 

3) 分 片 式 : 每 个 场地 只 保存 与 本 场地 对 象 相关 的 目录 表 ， 整 个 目录 表 是 所 有 这 些 不 相交 的 
本 地 目录 表 的 并 集 。 

4) 方法 1 与 方法 3 的 组 合 : 与 第 3 种 方法 一 样 ， 每 个 场地 维护 自己 的 本 地 目录 表 ; 此 外 ， 
在 一 个 单独 的 中 心 场地 上 维护 一 个 所 有 本 地 目录 表 的 统一 副本 ， 就 像 第 1 种 方法 那样 。 

上 述 的 每 一 种 方法 都 有 它们 自身 的 问题 。 方 法 1 显然 与 “不 依赖 中 心 场地 ”的 目标 相 矛 盾 ; 
方法 2 会 造成 自治 性 的 严重 丧失 ， 因 为 每 次 对 目录 表 的 修改 都 需要 传送 到 每 一 个 场地 上 去 ; 方法 
3 会 使 得 非 本 地 操作 的 代价 非常 高 (平均 下 来 ， 找 到 一 个 远程 对 象 需要 访问 半数 的 场地 ) ; 方法 
4 的 效率 要 比方 法 3 高 很 多 (找到 一 个 远程 对 象 只 需要 进行 一 次 远程 目录 表 访 问 ) ， 但 是 它 同样 
与 “不 依赖 中 心 场地 ”的 目标 相 矛 盾 。 因 此 在 实践 中 ， 系 统一 般 不 使 用 这 四 种 方法 中 的 任何 一 
种 ! 我 们 会 通过 例子 说 明 在 R”[21. 37] 中 使 用 的 方法 。 
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为 了 解释 R "的 目录 表 是 如 何 构造 的 ， 首 先 需 要 说 明 一 下 R 中 的 数据 对 象 命名 。 目 前 数据 
对 象 命名 在 分 布 式 系统 中 通常 都 是 一 个 非常 突出 的 问题 。 很 有 可 能 两 个 不 同 的 场地 X 和 了 都 有 
一 个 叫做 的 数据 对 象 ， 比 如 说 是 一 个 基本 表 ， 这 就 意味 着 需要 一 种 机 制 一 一 大 部 分 是 通过 场 
地 名 称 的 限定 一 一 来 进行 “区 分 ”( 即 保证 系统 范围 内 的 名 称 唯一 性 ) 。 但 是 类 似 半 R 和 了 R 之 
类 的 限定 名 称 如 果 暴 露 给 用 户 ， 显 然 就 会 和 位 置 独立 性 的 目标 冲突 。 因 此 ， 需 要 一 种 方法 把 用 户 
所 知道 的 名 称 映射 到 相应 的 系统 所 知道 的 名 称 。 

下 面 是 R 针对 这 一 问题 的 解决 方法 。 首 先 R 区 分 一 个 数据 对 象 的 外 部 名 (printname) 和 
系统 名 (system-wide name) ， 其 中 外 部 名 是 指数 据 对 象 被 用 户 正常 引用 时 的 名 字 〈 比 如 ， 在 一 
个 SQL 的 SELECT 语句 中 的 叫 法 ) ， 而 系统 名 是 指数 据 对 象 的 全 局 唯一 内 部 标识 。 系 统 名 有 四 个 
部 分 





和 创建 者 ID (Creator ID) (用 CREATE 操作 首次 创建 这 个 数据 对 象 的 用 户 的 ID) ; 
@ 创建 者 场地 ID (Creator site ID) (执行 CREATE 操作 所 在 的 场地 的 了 D ) ; 

s 本 地 名 (Local name) (数据 对 象 的 非 限 定名 称 ) ; 

四 生成 场地 ID (Birth site ID) (数据 对 象 最 初 存 储 的 场地 的 了 P) 。 

用 户 ID 在 场地 上 是 唯一 的 ， 而 场地 呈 是 全 局 唯一 的 。 比 如 ， 系 统 名 


MARILYN 8 NEWYORK . STATS @ LONDON 


指 的 是 一 个 数据 对 象 ， 也 许 是 一 个 基本 表 ， 它 的 本 地 名 是 STATS， 它 由 在 纽约 场地 的 用 户 Mari- 
lyn 创建 ， 最 初 存 储 在 伦敦 场地 上 9 。STATS 这 个 名 称 是 保证 永远 不 会 改变 的 ， 其 至 在 数据 对 象 
迁移 到 了 另外 一 个 场地 上 的 时 候 也 不 变 ( 见 下 文 )。 

我 们 已 经 指出 ， 用 户 一 般 通 过 他 们 的 外 部 名 来 引用 数据 对 象 ， 构 成 一 个 外 部 名 的 是 一 个 简单 
的 非 限定 名 一 一 或 者 是 系统 名 的 “本 地 名 ”部 分 (上面 的 例子 中 是 STATS ) ， 或 者 是 系统 名 的 
一 个 同义词 ， 这 个 同义词 是 通过 R’ 中 特定 的 SQL 语句 CREATE SYNONYM 来 定义 的 。 这 里 有 
一 个 例子 : 


CREATE SYNONYM MSTATS FOR MARILYN @ NEWYORK . STATS & LONDON ; 


比如 ， 现 在 用 户 既 可 以 说 


SELECT ... FROM STATS ... ; 
也 可 以 说 
SELECT ,.. FROM MSTATS .. 


在 第 一 种 情况 下 (使 用 本 地 名 ) ， 系 统 通 过 假设 使 用 所 有 的 缺 省 值 来 推断 系统 名 ， 也 就 是 ， 
数据 对 象 是 由 这 个 用 户 创建 的 、 是 在 这 个 场地 上 创建 的 、 最 初 也 是 存储 在 这 个 场地 上 的 。 顺 便 说 
一 句 ， 这 些 缺 省 假设 的 一 个 结果 就 是 原 有 的 System R 的 应 用 程序 可 以 不 加 变化 地 在 R 上 运行 
( 即 一 旦 System R 的 数据 在 R* 上 进行 了 重新 定义 ， 要 记 住 System R 是 R "的 基础 原型 ) 。 

在 第 二 种 情况 下 〈 使 用 同义词 ) ， 系 统 通 过 询问 相关 的 则 义 词 表 来 决定 系统 名 。 同 义 词 表 可 
以 被 认为 是 目录 表 的 第 一 个 组 成 部 分 ， 每 个 场地 为 该 场地 上 的 每 个 用 户 维护 一 组 这 样 的 表 ， 把 用 
户 所 知道 的 同义词 映射 到 系统 名 上 。 

除了 同义词 表 ， 每 个 场地 还 要 维护 : 

1) 每 个 在 该 场地 产生 的 数据 对 象 的 一 个 目录 表 表 项 。 

2) 每 个 现在 存储 在 该 场地 的 数据 对 象 的 一 个 目录 表 表 项 。 

假设 现在 用 户 发 出 一 个 与 同义词 MSTATS 有 关 的 请 求 。 首 先 系统 在 合适 的 同义词 表 中 查找 
对 应 的 系统 名 (这 是 一 个 纯粹 的 本 地 查找 )。 现 在 比如 说 它 知道 了 生成 场地 是 伦敦 于 是 它 可 以 








”基本 表 直 接 映射 到 R"“ 中 存储 的 关系 表 中 ， 就 作者 所 知 的 几乎 每 个 系统 都 是 这 样 做 的 。 参 考 附 录 A 中 对 这 一 观 
点 的 评述 。 
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询问 伦敦 的 目录 表 (不 失 一 般 性 ， 我 们 假设 这 是 一 个 远程 查找 一 一 第 一 次 远程 访问 ) 。 由 上 面 的 
第 1 点 我 们 知道 ， 伦 敦 的 目录 表 会 包含 这 个 数据 对 象 的 一 个 表 项 。 如 果 数 据 对 象 仍然 在 伦敦 ， 它 
现在 就 被 找到 了 。 但是， 比如 说 ， 如 果 数 据 对 象 已 经 被 迁移 到 了 洛杉矶 ， 在 伦敦 的 目录 表 表 项 会 
给 出 这 一 信息 ， 则 系统 现在 就 可 以 询问 洛杉矶 的 目录 表 (第 二 次 远程 访问 ) 。 由 上 面 的 第 2 点 我 
们 知道 ， 洛 杉 矶 的 目录 表 将 包含 这 个 数据 对 象 的 一 个 表 项 。 所 以 这 个 数据 对 象 最 多 经 过 两 次 远程 
访问 就 可 以 被 找到 。 

进一步 讲 ， 如 果 该 对 象 被 再 一 次 迁移 ， 比 如 说 迁移 到 旧金山 ， 则 系统 会 做 如 下 工作 : 

1) 插入 一 个 旧金山 的 目录 表 项 ; 

2) 删除 洛杉矶 目录 表 项 ，; 

3) 将 伦敦 的 目录 表 项 修改 为 指向 旧金山 而 不 是 洛杉矶 。 

最 终 还 是 至 多 通过 两 次 远程 访问 就 可 以 找到 这 个 数据 对 象 。 而 且 这 是 一 个 完全 的 分 布 模 
式 一 一 在 系统 中 没有 集中 的 目录 表 场 地 ， 从 而 没有 单 点 故障 。 

说 明 一 下 ， 在 DB2 的 分 布 式 数据 设备 中 的 数据 对 象 命名 模式 与 上 面 所 说 的 相似 ， 但 是 并 不 
相同 。 
3. 更 新 传播 
如 21.3 节 所 指出 的 那样 ， 数 据 复制 的 基本 问题 是 ， 对 一 个 给 定 逻 辑 对 象 的 修改 必须 传播 到 
该 对 象 的 所 有 存储 副本 上 去 。 随 之 出 现 的 一 个 问题 是 某 个 存储 了 该 数据 对 象 副本 的 场地 可 能 在 修 
改 时 是 不 可 用 的 〈 由 于 场地 故障 或 是 网 络 故障 ) 。 因 此 最 直接 的 策略 ， 即 将 修改 立即 传播 到 所 有 
副本 上 的 策略 ， 看 起 来 是 不 能 实现 了 ， 因 为 这 意味 着 如 果 当 时 有 一 个 副本 不 可 用 的 话 ， 修 改 一 一 
当然 还 包括 事务 一 一 就 将 失败 。 实 际 上 ， 从 某 种 意义 上 说 ， 在 这 种 策略 下 数据 的 可 用 性 比 在 无 复 
制 的 情况 下 更 差 ， 因 此 ， 前 面 章节 中 所 声称 的 数据 复制 的 一 个 优点 也 就 被 削弱 了 。 

处 理 这 个 问题 的 一 个 通常 的 模式 〈 不 是 唯一 可 能 的 模式 ) 是 所 谓 的 主 副本 模式 ， 有 具体 内 容 
如 下 : 

s 被 复制 对 象 的 一 个 副本 被 指定 为 主 副 本 。 剩 下 的 都 为 从 属 副本 。 

u 不 同 数据 对 象 的 主 副本 存储 在 不 同 的 场地 上 (这 同样 说 明 这 是 一 个 分 布 模式 ) 。 

sm 一 旦 完成 了 对 主 副本 的 修改 ， 修 改 操作 就 被 认为 是 逻辑 地 完成 了 。 拥 有 主 副 本 的 场地 则 要 
负责 在 某 个 接 下 来 的 时 间 里 把 更 新 传播 到 所 有 的 从 属 副本 上 。 注 意 : 如 果 要 想 保持 事务 的 ACID 
属性 ， 这 个 “ 接 下 来 的 时 间 ” 就 必须 在 COMMIT 之 前 (参见 第 15 章 和 第 16 章 ) 。 我 们 后 面 还 
会 讨论 这 个 问题 。 

当然 ， 这 个 模式 本 身 也 会 带 来 许多 其 他 问题 ， 其 中 的 大 部 分 已 经 超出 了 本 书 所 讨论 的 范围 。 
还 要 注意 到 ， 它 同时 还 带 来 了 与 本 地 自治 目标 之 间 的 冲突 ， 因 为 在 这 种 情况 下 一 个 事务 可 能 会 由 
于 一 个 远程 〈 主 ) 副本 的 不 可 用 而 失败 一 一 尽管 本 地 副本 是 可 用 的 。 

如 前 所 述 ， 事 务 处 理 的 ACID 要 求 意 味 着 所 有 的 更 新 传播 必须 在 相应 的 事务 完成 之 前 完成 
(“同步 复制 ")。 但 是 ， 目 前 许多 商用 产品 支持 的 是 一 种 弱化 形式 的 复制 ， 在 这 种 方式 下 修改 的 
传播 可 以 在 某 个 稍 后 的 时 候 (可 能 是 某 个 用 户 指定 的 时 候 ) 来 进行 ， 而 不 必 在 相应 事务 完成 的 
时 间 范 围 内 ( “异步 复制 ") 。 事 实 上 ， 复 制 这 个 词 已 经 被 这 些 产品 或 多 或 少 地 自 改 了 ， 结 果 
是 一 一 至 少 在 商用 市 场 上 一 一 它 总 是 用 来 暗示 更 新 传播 将 延迟 到 相应 事务 的 提交 点 之 后 〈 比如 ， 
见 参 考 文献 [21. 1，21. 16, 21. 18])。 显 然 ， 延 迟 传播 方法 的 问题 是 数据 库 无 法 再 保证 在 任何 
时 候 都 是 一 致 的 ? 。 事 实 上 ， 甚 至 用 户 都 可 能 不 知道 它 是 不 是 一 致 的 。 

以 下 是 对 于 延迟 传播 方法 的 3 点 额外 说 明 ; 

1) 在 一 个 支持 延迟 更 新 传播 的 系统 里 ， 可 以 将 复制 的 概念 看 作 是 第 10 章 中 快照 方法 的 一 种 
应 用 。 实 际 上 ， 用 另外 一 个 词 来 形容 这 种 复制 会 更 好 ， 那 么 我 们 就 可 以 让 “副本 ”一 词 保留 它 














当然， 如 果 立 即 执行 完整 性 检查 ( 见 第 9 章 和 第 16 章 ) ， 就 不 会 引发 这 样 的 情况 。 即 使 这 样 的 检查 推迟 到 
COMMIT 之 后 一 我 们 可 能 认为 这 样 在 逻辑 上 是 不 正确 的 ， 但 在 某 些 系统 中 是 存在 的 一 一 还 是 不 会 引发 这 样 的 
情况 。 所 以 ， 在 某 种 程度 上 ， 我 们 认为 延迟 传播 比 推迟 检查 在 逻辑 上 更 加 不 正确 。 
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在 一 般 论述 中 的 通常 含义 ( 即 ， 一 个 准确 的 拷贝 ) 了 。 注 意 : 快照 是 只 读 的 (除了 定期 更 新 
外 ) ， 然 而 一 些 系 统 允许 用 户 直接 更 新 副本 一 一 比如 ， 匈 参考 文献 [21. 18 ] 。 当 然 ， 直 接 更 新 副 
本 会 引发 与 复制 独立 性 的 冲突 。 

2) 我 们 并 不 是 说 延迟 传播 不 是 一 个 好 的 主意 。 比 如 在 第 22 章 我 们 将 看 到 ， 在 适当 的 情形 下 
它 显 然 是 一 种 合适 的 方法 。 但 是 ， 最 主要 的 是 ， 延 迟 传播 会 导致 “副本 ”并 不 是 真正 的 副本 
(很 可 能 逻辑 层 一 个 给 定 的 数据 值 在 物理 层 会 有 两 个 或 更 多 个 的 数据 值 表示 ， 其 至 这 些 值 会 有 所 
不 同 ) ， 而 系统 也 不 是 真正 的 分 布 式 数据 库 系统 。 

3) 商用 产品 之 所 以 用 延迟 传播 来 实现 复制 的 一 个 原因 (其 至 是 主要 原因 ) 在 于 ， 替 代 方 
法 一 一 即 在 COMMIT 之 前 修改 所 有 副本 一 一 需要 两 阶段 提交 的 支持 (网 下 一 小 节 )， 但 是 这 会 
导致 性 能 上 的 很 大 开销 。 这 种 情况 说 明了 为 什么 在 商业 出 版 物 中 有 时 会 碰见 具有 类 似 这 种 奇怪 标 
题 的 文章 :“ 复 制 与 两 阶段 提交 ”。 其 之 所 以 奇怪 是 因为 表面 上 看 起 来 ， 他 们 好 像 是 在 比较 两 件 
完全 不 同 的 事情 。 

4. 恢复 控制 

正如 21.3 节 所 说 明 的 ， 分 布 式 系统 的 恢复 控制 一 般 是 基于 两 阶段 提交 协议 或 它 的 某 个 变 体 。 
假如 一 个 单独 的 事务 要 和 许多 自治 的 资源 管理 者 交互 ， 则 在 任何 类 似 这 样 的 环境 下 ， 都 要 用 到 两 
阶段 提交 协议 。 但 是 两 阶段 提交 协议 在 一 个 分 布 式 系统 中 尤为 重要 ， 因 为 所 说 的 资源 管理 者 一 一 
即 本 地 的 DBMS 一 一 运行 在 不 同 的 场地 上 ， 因 此 是 完全 自治 的 。 以 下 是 几 点 说 明 : 

1)“ 不 依赖 中 心 场地 ”的 目标 指出 协调 功能 不 可 以 指定 给 网 络 中 某 个 特别 的 场地 ， 而 必须 
针对 不 同 的 事务 由 不 同 的 场地 来 执行 。 通 常 该 功能 都 是 由 被 执行 事务 的 启动 场地 来 完成 的 ， 因 
此 ， 在 通常 情况 下 ， 每 个 场地 必须 既 可 以 作为 某 些 事务 的 协调 者 又 作为 另外 一 些 事务 的 参与 者 。 

2) 两 阶段 提交 进程 需要 协调 者 与 每 一 个 参与 场地 进行 通信 ， 这 就 意味 着 更 多 的 消息 传递 与 
更 大 的 开销 。 

3) 如 果 场 地 了 是 由 场地 万 协调 的 两 阶段 提交 进程 中 的 一 个 参与 者 ， 那 么 场地 了 必须 按照 场 
地 X 所 告诉 它 的 去 做 〈 按 照 需 要 进行 提交 或 是 回 滚 ) ， 这 是 本 地 自治 性 的 一 种 〈 也 许 是 较 小 的 ) 
损失 。 

让 我 们 回顾 一 下 第 15 章 所 描述 的 最 基本 的 两 阶段 提交 进程 。 图 21-5 显示 了 协调 者 与 一 个 典 
型 的 参与 者 之 间 所 进行 的 交互 过 程 。 不 失 一 般 性 ， 我 们 假设 协调 者 和 参与 者 在 不 同 的 场地 ; 并 且 
要 注意 ， 图 中 的 时 间 轴 是 从 左 向 右 的 。 为 简单 起 见 ， 假 设 事务 要 求 执行 一 个 COMMIT 而 不 是 一 
个 ROLLBACK。 在 接 到 COMMIT 请 求 后， 协调 者 完成 如 下 两 阶段 进程 : 


s 协调 者 要 求 每 个 参与 者 针对 事务 “做 好 完 | 强制 决定 写 入 日 地 记录 一 一 
成 任何 请 求 的 准备 "。 图 21-5 表明 “做 好 | [协调 者 结束 阶段 1 ,开始 阶段 2 
准备 ”的 消息 在 1 时 刻 被 发 出 ， 在 乙 时 刻 td4 55 

被 参与 者 接收 到 。 这 时 参与 者 强制 本 地 代 
理 将 一 条 日 志 记录 写 人 物理 日 志 中 ， 然 后 
向 协调 者 发 一 条 “准备 就 绪 ” 的 消息 ( 当 
然 ， 假 如 出 现 了 任何 问题 ， 尤 其 是 本 地 代 
理发 生 故 障 ， 它 将 发 出 “没有 准备 好 ”的 
消息 ) 。 在 图 中 ， 响 应 消息 一 “准备 就 图 21.5 两 阶段 提交 

绪 ” 是 在 3 时 刻 被 发 出 的 ， 协 调 者 在 总 时 

刻 收 到 这 一 消息 。 注 意 (如 同 已 经 指出 的 ) 参与 者 这 时 丧失 了 一 定 的 自治 性 : 它 必须 按 
照 接 下 来 协调 者 告诉 它 的 去 做 。 而 且 ， 任 何 被 本 地 代理 封锁 的 资源 必须 继续 保持 封锁 ， 直 
到 参与 者 接收 到 协调 者 的 决定 并 依照 执行 。 

从 所 有 的 参与 者 那里 接收 到 响应 以 后 ， 协 调 者 将 做 出 决定 〈 如 果 所 有 的 响应 都 是 “准备 
就 绪 " ， 则 决定 提交 ， 否 则 回 滚 ) 。 然 后 它 强制 将 一 条 日 志 记录 写 人 物理 日 志 ， 记 录 下 该 
决定 ， 时 刻 为 5。65 这 一 时 刻 标志 着 从 阶段 1 到 阶段 2 的 过 渡 。 

a 我 们 假设 决定 是 提交 。 于 是 协调 者 要 求 所 有 的 参与 者 “执行 ”( 即 为 本 地 代理 执行 提交 进 
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程 ) ; 图 21-5 表明 “执行 ”的 消息 在 6 时 刻 被 发 出 ， 在 #7 时 刻 被 参与 者 接收 到 。 参 与 者 
为 本 地 代理 完成 提交 之 后 ， 向 协调 者 发 回 一 条 确认 消息 (“执行 完毕 ) 。 在 图 中 ， 确 认 消 
息 是 在 8 时 刻 被 发 出 的 ， 协 调 者 在 9 时 刻 收 到 这 一 消息 。 
a 当 协 调 者 接收 到 了 所 有 的 确认 消息 ， 整 个 进程 就 结束 了 。 
当然 ， 在 实际 情况 中 整个 进程 肯定 比 刚才 所 描述 的 要 复杂 得 多 ， 因 为 必须 考虑 到 场地 和 网 络 
故障 的 情况 。 比 如 ， 假 设 协调 者 场地 在 5 与 6 之 间 的 某 个 时 刻 1 出 现 了 故障 ， 则 在 场地 恢复 之 
后 ,通过 日 志 ， 重 新 启动 的 过 程 将 发 现 有 一 个 事务 正 处 在 两 阶段 提交 进程 的 第 二 个 阶段 ， 于 是 将 
通过 向 所 有 的 参与 者 发 出 “执行 ”的 消息 来 继续 这 一 进程 (需要 注意 的 是 在 该 事务 中 ， 参 与 者 
在 B ~7 期 间 是 处 在 “不 确定 ”状态 下 。 如 果 协 调 者 确实 如 所 说 的 是 在 时 刻 1 发 生 故 障 的 ， 则 这 
个 “不 确定 ”的 状态 将 持续 很 长 的 一 段 时 间 ) 。 
当然 在 理想 的 情况 下 ， 我 们 希望 两 阶段 提交 进程 对 于 任何 可 能 的 故障 都 保持 弹性 。 不 幸 
的 是 ， 很 显然 这 一 目标 从 根本 上 是 无 法 达到 的 一 一 即 面 对 任 意 可 能 的 故障 ， 不 存在 任何 有 限 
次 的 协议 可 以 保证 所 有 的 参与 者 能 够 一 致 地 提交 一 个 成 功 的 事务 或 回 滚 一 个 不 成 功 的 事务 。 
反 过 来 说 ， 假 设 存在 这 样 一 个 协议 ， 则 n 是 这 个 协议 所 需要 的 最 少 的 消息 数目 。 现 在 再 假设 
由 于 某 种 故障 ， 这 个 消息 中 最 后 一 个 消息 丢失 了 ， 则 要 么 这 个 消息 是 不 必要 的 《这 与 4 为 
最 少数 目的 假设 相 矛 盾 ) ， 要 么 协议 无 法 生效 。 任 何 一 种 可 能 都 会 引出 矛盾 ， 从 而 可 以 推断 出 
不 存在 这 样 的 协议 。 
尽管 这 一 事实 让 人 不 快 , 但 是 从 改进 性 能 的 角度 来 看 ， 至 少 还 是 可 以 不 同 程度 地 加 强 一 些 基 
本 算法 : 
m 首先 ( 见 参考 文献 [15.6] 的 注释 ) ， 如 果 在 某 个 参与 者 场地 上 的 代理 是 只 读 的 ， 则 这 个 
参与 者 在 第 一 阶段 可 以 发 出 “忽略 我 ”的 响应 消息 ， 而 协调 者 就 可 以 在 第 二 阶段 真正 地 
忽略 它 。 
sm 第 二 ( 见 参 考 文献 [15.6])， 如 果 所 有 的 参与 者 在 第 一 阶段 的 响应 消息 都 是 “忽略 我 ”， 
则 第 二 阶段 就 可 以 被 完全 地 跳 过 。 
s 第 三 ， 基 本 模式 有 两 个 很 重要 的 变 体 ， 叫 做 假想 提交 和 假想 回 滚 ， 在 下 面 几 段 将 对 它们 进 
行 更 详细 的 讨论 。 
实质 上 ， 假 想 提交 模式 具有 减少 成 功 的 情况 下 所 需 消 息 数量 的 效果 ， 而 假想 回 滚 可 以 减少 失 
败 的 情况 下 所 需 消息 的 数量 。 为 了 解释 这 两 种 模式 ， 首 先 要 注意 在 上 面 所 叙述 的 基本 机 制 中 ， 协 
调 者 要 始终 记 住 它 的 决定 直到 它 从 每 一 个 参与 者 那里 都 接收 到 了 一 个 确认 消息 。 当 然 ， 原 因 是 如 
果 一 个 参与 者 在 “不 确定 ”的 状态 下 骨 省 了 ， 则 在 重新 启动 的 时 候 它 必须 要 询问 协调 者 以 获知 
协调 者 的 决定 是 什么 。 但 是 ， 如 果 所 有 的 确认 消息 都 被 接收 到 了 ， 协 调 者 就 知道 所 有 的 参与 者 都 
已 经 按照 被 告知 的 执行 了 ， 那 么 它 就 可 以 “忘记 ”这 个 事务 了 。 

我 们 现在 来 看 看 假想 提交 。 在 这 种 模式 下 ， 要 求 参与 者 确认 “ 回 滚 ”(“ 不 执行 ") 消息 而 
不 需要 确认 “提交 ”(“ 执 行 ”") 消息 。 而 且 如 果 决 定 是 “提交 ”， 协 调 者 可 以 在 广播 了 它 的 决定 
之 后 立即 “忘记 ”这 个 事务 。 如 果 一 个 不 确定 的 参与 者 崩溃 了 ， 则 在 重启 动 的 时 候 它 将 〈 像 通 
常 一 样 ) 询问 协调 者 ; 如果 协调 者 仍然 记 着 〈 存 储 着 ) 这 个 事务 〈 即 协调 者 仍然 在 等 待 参与 者 
的 确认 消息 ) ， 那 么 决定 肯定 是 “ 回 滚 ”， 否 则 肯定 是 “提交 ”。 

当然 ， 假 想 回 滚 正 好 相反 ， 参与 者 被 要 求 确认 “提交 ”消息 而 不 是 “ 回 滚 ” 消 息 ， 而 协调 
者 可 以 在 广播 了 它 的 决定 之 后 忘记 这 个 事务 ， 只 要 决定 是 “ 回 滚 ” 。 如 果 一 个 不 确定 的 参与 者 崩 
溃 了 ， 则 在 重启 动 的 时 候 它 将 询问 协调 者 ; 如 果 协 调 者 仍然 记 着 (存储 着 ) 这 个 事务 〈 即 协调 
者 仍然 在 等 待 参与 者 的 确认 消息 ) ， 那 么 决定 肯定 是 “提交 ”， 否 则 肯定 是 “ 回 滚 ”。 

有 趣 的 是 (也 是 有 些 有 悖 于 直觉 的 是 ) ， 假 想 回 滚 似乎 比 假想 提交 更 可 取 (我 们 说 它 “ 有 迟 
于 直觉 ”是 因为 绝 大 部 分 事务 肯定 是 成 功 的 ， 而 假想 提交 可 以 减少 成 功 情况 下 消息 的 数目 )。 假 
想 提交 的 问题 如 下 : 假设 协调 者 在 第 一 阶段 〈 即 在 它 做 出 决定 之 前 ) 崩溃 了 ， 则 在 协调 者 场地 
重启 动 的 时 候 ， 事 务 将 回 滚 〈 因 为 它 没有 完成 ) 。 接 下 来 ， 某 个 参与 者 询问 协调 者 关于 这 个 事务 
的 决定 ,而 协调 者 已 经 不 记得 这 个 事务 了 ， 那 么 就 将 假定 决定 是 “提交 ”一 一 点 无 疑问 这 是 不 
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对 的 。 

为 了 避免 这 种 “错误 提交 ”， 协 调 者 〈 如 果 采 用 假想 提交 的 话 ) 必须 在 开始 第 一 阶段 的 时 候 
向 它 的 物理 日 志 中 强制 写 和 一 条 日 志 记录 ， 给 出 事务 中 所 有 的 参与 者 (现在 如 果 协 调 者 在 第 一 
阶段 崩溃 了 ， 则 在 重启 动 的 时 候 它 将 向 所 有 的 参与 者 广播 “ 回 滚 ” 消 息 ) 。 而 对 协调 者 日 志 的 这 
一 次 物理 IO 对 每 一 个 事务 都 是 关键 所 在 ， 于 是 假想 提交 就 不 像 它 给 人 的 第 一 印象 那样 吸引 人 
了 。 实 际 上 ， 不 夸张 地 说 ， 截 至 在 本 书写 作 的 时 候 ， 假 想 回 滚 已 经 是 现 有 的 实现 系统 事实 上 的 标 
准 了 。 

5. 并 发 控制 

如 同 在 21. 3 节 所 说 明 的 ， 绝 大 部 分 分 布 式 系统 中 的 并 发 控制 都 是 基于 封锁 的 。 但 是 在 一 个 
分 布 式 系统 中 ,测试 、 设 置 以 及 释放 锁 的 请 求 都 变 成 了 消息 (假设 所 考虑 的 数据 对 象 在 一 个 远 
程 场地 上 ) ， 而 消息 就 意味 着 开销 。 比 如 ， 一 个 事务 7 要 修改 一 个 数据 对 象 ， 而 这 个 对 象 在 nn 个 
远程 场地 上 都 存在 副本 。 如 果 每 个 场地 都 负责 对 存储 在 该 场地 上 的 对 象 进行 封锁 (就 像 在 本 地 
自治 假设 下 所 做 的 一 样 ) ， 则 最 直接 的 实现 方式 至 少 需 要 5n 条 消息 : 

n 条 封锁 请 求 

n 条 封锁 授权 

n 条 修改 消息 

n 条 确认 消息 

n 条 解锁 请 求 

当然 我 们 可 以 很 容易 地 通过 “搭载 ”消息 来 改进 上 述 过 程 一 一 比如 ， 封 锁 请 求 和 修改 消息 
可 以 进行 合并 ， 封锁 授 权 和 确认 消息 也 同样 可 以 合并 一 一 但 即使 是 这 样 ， 修 改 所 需要 的 全 部 时 间 
也 会 比 在 一 个 集中 式 系统 中 高 出 好 几 个 数量 级 。 

通常 解决 这 一 问题 的 方法 是 修改 在 前 面 “ 更 新 传播 ” 小 节 中 提出 的 主 副本 策略 。 对 一 个 给 
定 的 数据 对 象 4， 拥 有 A 的 主 副 本 的 场地 将 处 理 所 有 有 关 4 的 封锁 操作 (要 记 住 一般 情 况 下 不 
同 对 象 的 主 副本 存储 在 不 同 的 场地 上 ) 。 在 这 一 策略 下 ,针对 封锁 而 言 ， 一 个 对 象 的 所 有 副本 的 
集合 可 以 被 看 作 是 一 个 单一 的 对 象 ， 而 消息 的 总 数 也 将 从 Sm 减少 到 2n +3 (一 条 封锁 请 求 、 一 
条 封锁 授权 、n 条 修改 消息 、n 条 确认 消息 以 及 一 条 解锁 请 求 )。 但 是 需要 再 次 注意 的 是 ， 这 个 
解决 方案 会 带 来 自治 性 的 (严重 ) 丧失 一 如 果 一 个 主 副本 不 可 用 了 ,一 个 事务 就 将 失败 ， 即 
使 这 个 事务 是 只 读 的 ， 而且 有 一 个 本 地 副本 是 可 用 的 。( 注 意 不 仅 修改 操作 需要 封锁 主 副本 ， 而 
且 检 索 操作 也 需要 封锁 主 副本 [15.6] ， 因 此 主 副本 策略 的 二 个 不 好 的 副作用 就 是 ， 它 会 降低 检 
索 和 修改 的 性 能 和 可 用 性 。) 

在 一 个 分 布 式 系统 中 进行 封锁 的 另外 一 个 问题 是 它 会 导致 全 局 死 锁 。 全 局 死 锁 是 涉及 两 个 或 
者 多 个 场地 的 死 锁 。 比 如 (如 图 21-6 所 示 ): 

1) 事务 72 在 场地 XX 上 的 代理 正在 等 待 事务 T1 在 地 xX 





场地 X 上 的 代理 释放 一 个 锁 ; 

2) 事务 71 在 场地 上 的 代理 正在 等 待 事务 71 在 
场地 了 上 的 代理 完成 操作 

3) 事务 71 在 场地 Y 上 的 代理 正在 等 待 事务 72 在 
场地 Y 上 的 代理 释放 一 个 锁 ; 

4) 事务 72 在 场地 了 上 的 代理 正在 等 待 事务 72 在 
场地 X 上 的 代理 完成 操作 : 死 锁 ! 

对 任何 一 个 场地 而 言 ， 只 用 该 场地 内 部 的 信息 是 无 
法 检测 出 像 这 样 的 死 锁 问题 的 。 换 句 话说 ， 在 本 地 的 等 
待 图 中 并 没有 回路 ， 但 是 ， 如 果 两 个 本 地 图 被 合成 了 一 
个 全 局 图 ， 就 会 出 现 一 个 回路 。 这 就 意味 着 全 局 死 锁 检 ”场地 
测 会 带 来 进一步 的 通信 开销 ， 因 为 它 要 求 独立 的 本 地 图 。。 图 21.6 全 局 死 锁 的 一 个 示例 
以 某 种 方式 被 集中 到 一 起 。 
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在 关于 R 的 论文 中 描述 了 一 个 漂亮 的 (也 是 分 布 的 ) 模式 用 于 全 局 死 锁 检测 (例如 ， 见 参 
考 文献 [21. 37] ) 。 注 意 : 在 第 16 章 我 们 曾 指出 ， 在 实际 中 并 不 是 所 有 的 系统 都 进行 死 锁 检测 ， 
有 些 只 是 用 超时 机 制 来 替代 。 由 于 显而易见 的 原因 ， 这 种 方式 对 于 分 布 式 系统 而 言 是 尤为 实 
际 的 。 


21.5 客户 /服务 器 系统 


在 21.1 节 中 我 们 曾 提 到 ， 可 以 将 客户 /服务 器 系统 看 作 是 普遍 意义 上 的 分 布 式 系统 的 一 种 特 
殊 情 况 。 更 确切 地 说 ， 一 个 客户 /服务 器 系统 是 这 样 一 个 分 布 式 系统 : (a) 某 些 场地 是 客户 场 
地 ， 而 某 些 场地 是 服务 器 场地 ; (b) 所 有 的 数据 都 驻 留 在 服务 器 场地 ; (c) 所 有 的 应 用 都 在 客 
户 场地 运行 ;，(d) “存在 接 锋 ” (不 提供 完全 的 位 置 独立 性 ) 。 如 图 21-7 所 示 (与 第 2 章 中 的 图 
2-6 相同 ) 。 

20 世纪 80 年 代 末 至 90 年 代 中 期 ， 在 客户 /服务 器 系统 中 蕴含 着 巨 
大 的 商业 利益 ,而 在 真正 的 通用 分 布 式 系统 中 商业 利益 则 相对 少 得 可 
怜 。 下 一 节 我 们 将 看 到 ， 现 在 这 种 情形 有 了 一 定 程度 的 改变 , 但 是 客 
户 /服务 器 结构 始终 很 重要 ， 因 此 我 们 在 这 里 仍然 要 讨论 一 下 。 

首先 ， 回 忆 一 下 ,，“ 客 户 /服务 器 ”这 个 词 主 要 是 指 一 种 体系 结构 ， 
或 是 对 职责 的 逻辑 划分 。 客 户 是 指 应 用 (也 叫做 前 端 ) ， 而 服务 器 是 指 
DBMS (也 叫做 后 端 ) 。 但 是 恰恰 是 由 于 整个 系统 可 以 被 清晰 地 划分 为 两 AM _ 
个 部 分 ， 也 就 有 了 将 两 个 部 分 运行 到 不 同 的 机 器 上 的 可 能 。 而 这 种 可 能 透明 远程 存 取 
性 是 如 此 的 吸引 人 《〈 见 第 2 章 2. 10 节 的 说 明 ) ， 以 至 于 “客户 /服务 器 ” 


这 个 词 几乎 只 被 应 用 于 客户 和 服务 器 的 确 运行 在 不 同 的 机 器 上 的 情况 ” 。 服务 器 





这 种 用 法 是 普遍 的 ， 但 也 是 草率 的 ， 我 们 将 在 下 面 对 它 进行 修正 。 


注意 在 基本 模式 之 上 还 可 能 存在 许多 变 体 : 

a 许多 客户 也 许可 以 共享 同一 个 服务 器 (实际 上 ， 这 是 正常 的 

情况 ) 。 

。 一 个 单一 的 客户 也 许可 以 存 取 许多 服务 器 ， 这 种 可 能 性 又 可 以 分 “图 21.7 个 客户 / 


1) 限制 客户 一 次 只 可 以 存 取 一 个 服务 器 一 一 即 每 个 独立 的 数据 

库 请 求 必 须 只 针对 一 个 服务 器 ， 不 可 能 出 现在 一 个 单一 的 请 求 中 同时 包含 来 自 两 个 或 
多 个 不 同 服务 器 的 数据 的 情况 。 而 且 用 户 必 须要 知道 哪 一 个 服务 器 存储 着 哪 一 部 分 
数据 。 

2) 客户 可 以 同时 存 取 多 个 服务 器 一 一 即 一 个 单一 的 数据 库 请 求 可 以 包含 多 个 服务 器 的 数 
据 ， 这 意味 着 在 客户 看 来 这 些 服务 器 好 像 实际 上 只 是 一 个 服务 器 ， 而 用 户 也 不 需要 知道 哪 
一 个 服务 器 存储 着 哪 一 部 分 数据 。 

但 是 这 里 的 第 二 种 情况 实际 上 是 一 个 真正 的 分 布 式 系统 (“ 隐 藏 了 接 锋 ” ) ， 它 并 不 是 通常 情 
况 下 “客户 /服务 器 ”的 含义 ， 只 是 我 们 在 下 面 将 忽略 这 一 点 。 

1. 客户 /服务 器 标准 

在 客户 /服务 器 处 理 中 有 许多 生效 的 标准 : 

首先 ， 一 些 客户 /服务 器 的 特征 被 包括 在 SQL 标准 中 ， 对 于 这 些 特征 的 讨论 将 放 到 21.7 
节 中 。 

接 下 来 还 有 ISO 的 远程 数据 存 取 (Remote Data Access，RDA) 标准 [21.23，21.24]。RDA 
的 目的 是 为 客户 /服务 器 通信 定义 格式 和 协议 。 它 假设 a) 客户 用 标准 形式 的 SQL (基本 是 SQL 
标准 的 一 个 子 集 ) 来 表达 数据 库 请 求 ; b) 服务 器 支持 一 个 标准 的 目录 表 (同样 遵循 SQL 标准 
的 定义 ) 。 然 后 它 定 义 了 一 个 用 来 在 客户 与 服务 器 之 间 传 递 消息 〈SQL 请 求 、 数 据 和 结果 以 及 分 





@@ ”很 明显 ,术语 “ 两 级 系统 ” (two-tier system) 本 质 上 也 是 同样 的 意思 。 
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析 信 息 ) 的 特定 的 表达 格式 。 

我 们 在 这 里 要 提 到 的 第 三 个 也 是 最 后 一 个 标准 是 IBM 的 分 布 式 关系 数据 库 体系 结构 ( Dis- 
tributed Relational Database Architecture， DRDA) 标准 [21.22] ( 它 是 一 个 现实 中 的 标准 ， 而 不 
是 一 个 理论 上 的 标准 ) 。DRDA 和 RDA 有 着 类 似 的 目标 ， 但 是 DRDA 在 许多 重要 的 方面 与 RDA 
不 同 尤其 是 DRDA 倾向 于 反映 出 它 的 IBM“ 血 统 ”。 比 如 ，DRDA 并 不 假设 客户 端 使 用 的 是 
标准 版 本 的 SQL， 而 是 代 之 以 允许 任何 形式 的 SQL。 一 个 (可 能 的 ) 后 果 就 是 获得 更 好 的 性 能 ， 
因为 客户 端 有 可 能 利用 某 些 服务 器 所 特有 的 功能 ; 另 一 方面 这 又 会 带 来 可 移植 性 的 损失 ， 恰 恰 是 
因为 那些 服务 器 所 特有 的 功能 对 客户 端 是 开放 的 〈 即 客户 端 知道 与 之 对 话 的 是 哪 一 种 服务 器 ) 。 
基于 同样 的 想法 ，DRDA 并 不 假设 在 服务 器 端 有 任何 特定 的 目录 结构 。DRDA 的 格式 和 协议 与 
RDA 的 非常 不 同 (关键 是 ，DRDA 是 基于 IBM 自己 的 体系 结构 和 标准 ， 而 RDA 是 基于 国际 的 、 
与 供应 商 无 关 的 标准 )。 

关于 RDA 与 DRDA 进一步 的 细节 已 经 超出 了 本 书 的 范围 ， 在 参考 文献 [21.20] 和 
[21.28] 中 可 以 找到 关于 它们 的 一 些 分 析 和 比较 。 

2. 客户 /服务 器 应 用 程序 编程 

我 们 曾经 说 过 ， 客 户 / 服 务 器 系统 是 普遍 意义 上 的 分 布 式 系 统 的 一 种 特殊 情况 。 如 同 在 本 节 
开始 的 引言 中 所 说 ， 一 个 客户 /服务 器 系统 可 以 被 看 作 是 这 样 一 个 分 布 式 系 统 ， 所 有 的 请 求 都 源 
自 于 一 个 场地 而 所 有 的 处 理 都 在 另 一 个 场地 上 执行 (为 了 简单 起 见 ， 假 设 只 有 一 个 客户 场地 和 
一 个 服务 器 场地 ) 。 注 意 : 显然 在 这 个 简单 的 定义 下 ， 仅 和 赁 其 自身 而 言 ， 一 个 客户 场地 完全 不 是 
一 个 真正 的 “数据 库 系统 的 场地 "” 。 因 此 ， 这 种 系统 与 在 21.2 节 中 所 给 出 的 通用 分 布 式 系统 的 
定义 相抵 触 。 当 然 ， 客 户 场地 同样 可 以 有 其 本 地 的 数据 库 ， 但 是 这 些 数据 库 并 不 直接 构成 这 种 客 
户 / 服 务 器 方案 中 的 一 部 分 。 

尽管 如 此 ， 客 户 /服务 器 方法 在 应 用 程序 编程 中 确实 有 其 特定 的 实现 方式 (实际 上 一 般 的 
分 布 式 系统 也 一 样 ) 。 在 所 有 最 重要 的 方面 中 ， 有 一 点 在 21.3 节 中 关于 目标 7 (分 布 式 查询 处 
理 ) 的 讨论 中 我 们 已 经 接触 过 了 : 也 就 是 通过 定义 和 设计 ， 我 们 知道 关系 系统 是 集合 层次 的 
系统 。 在 一 个 客户 /服务 器 系统 中 (实际 上 一 般 地 说 ， 是 在 分 布 式 系统 中 ) ， 比 以 往 更 为 重要 
的 是 ， 应 用 程序 员 不 仅仅 “ 像 使 用 一 种 存 取 方 法 那样 使 用 服务 器 ”并 编写 针对 记录 层次 的 代 
码 ， 而 是 要 把 尽 可 能 多 的 功能 捆绑 进 针 对 集合 层次 的 请 求 中 一 一 否则 执行 性 能 将 受到 影响 ， 
这 种 影响 是 由 执行 所 涉及 的 消息 数量 带 来 的 。 注 意 : 在 SQL 术语 中 ， 上 面 的 表述 意味 着 要 尽 
可 能 避免 使 用 游标 一 一 即 避 免 FETCH 循环 和 避免 UPPDATE 与 DELETE 的 CURRENT 形式 〈 见 
第 4 章 )。 

如 果 系 统 提供 某 种 存储 过 程 机 制 ， 那 么 在 客户 和 服务 器 之 间 的 消息 还 可 以 进一步 减少 。 一 个 
存储 过 程 本 质 上 是 一 个 存储 在 服务 器 场地 上 的 〈 并 且 是 可 以 被 服务 器 识别 的 ) 、 预 编译 的 程序 ， 
它 通 过 远程 过 程 调 用 (RPC) 被 客户 执行 。 因 些 ， 对 由 于 进行 记录 层次 的 处 理 所 造 成 的 性 能 损 
失 ， 可 以 通过 建立 一 个 合适 的 存储 过 程 并 在 服务 器 场地 上 直接 运行 它 来 部 分 地 抵消 。 

注意 : 尽管 这 与 我 们 关于 客户 /服务 器 处 理 的 论题 有 些 偏离 ， 还 是 应 该 指出 存储 过 程 的 好 处 
不 仅仅 在 于 提高 性 能 ， 而 且 还 包括 : 

a 这 种 过 程 还 可 以 用 来 对 用 户 隐 藏 各 种 与 DBMS 以 及 数据 库 相 关 的 细节 ， 从 而 与 其 他 情况 

相 比 可 以 提供 更 大 程度 的 数据 独立 性 。 

e 一 个 存储 过 程 可 以 被 许多 客户 共享 。 

s 可 以 在 创建 存储 过 程 的 时 候 ， 而 不 是 执行 它 的 时 候 进 行 优 化 〈 当 然 这 一 优点 是 相对 那些 

通常 进行 运行 时 优化 的 系统 而 言 的 ) 。 

se 存储 过 程 可 以 提供 更 好 的 安全 人 性。 比如 ， 一 个 给 定 的 用 户 可 以 被 授权 执行 一 个 给 定 的 过 

程 ， 但 是 却 无 法 对 该 过 程 所 存 取 的 数据 进行 直接 的 操作 。 

它 的 一 个 不 足 之 处 在 于 不 同 的 供应 商 在 这 方面 会 提供 非常 不 同 的 功能 软件 ， 尽 管 一 一 如 同 在 
第 4 章 所 提 到 的 一 一 在 1996 年 已 经 对 SQL 标准 进行 了 扩展 〈 增 加 了 持久 存储 模块 〈Persistent 
Stored Module) ，SQL/PSM) ， 以 包括 某 些 存储 过 程 支 持 。 
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21.6 DBMS 独立 性 


现在 回 到 对 于 一 般 分 布 式 系统 的 十 二 个 目标 的 讨论 上 来 。 大 家 应 该 记得 ， 最 后 的 一 个 目标 是 
DBMS 独立 性 。 在 21. 3 节 对 于 这 些 目标 的 简短 讨论 中 我 们 已 经 表明 ， 严 格 的 同 构 性 假设 是 太 强 
了 ， 实 际 上 所 需要 的 只 是 在 不 同 场地 上 的 DBMS 具有 同样 的 接口 。 我 们 在 21. 3 节 中 提 到 ， 如 果 
(比如 说 ) Ingres 和 Oracle 都 支持 官方 的 SQL 标准 ， 就 有 可 能 让 它们 在 一 个 异 构 的 分 布 式 系统 中 
充当 同等 的 合作 者 ; 事实 上 ， 通 常 这 种 可 能 性 会 首先 被 提出 来 作为 支持 SQL 标准 的 理由 之 一 ， 
然后 我 们 再 对 其 仔细 地 检查 。 注 意 : 我 们 把 讨论 建立 在 Ingres 和 Oracle 的 基础 之 上 ， 只 是 为 了 使 
讨论 更 有 针对 性 一 些 。 所 讨论 的 概念 毫 无 疑问 是 普遍 适用 的 。 

1. 通道 

假设 有 两 个 场地 X 和 了 分别 运 行 mgres 和 Oracle 系统 ， 而 与 此 同时 在 场地 XX 上 的 用 户 U 希 
望 看 到 一 个 单一 的 分 布 式 数据 库 ， 它 包括 来 自 于 场地 X 上 Ingres 数据 库 的 数据 和 来 自 于 场地 了 上 
Oracle 数据 库 的 数据 。 通 过 定义 ， 用 户 成 为 一 个 Ingres 用 户 ， 因 此 对 用 户 而 言 ， 这 个 分 布 式 数 
据 库 必须 是 一 个 Ingres 数据 库 。 这 样 ， 不 是 Oracle 而 是 Ingres 就 有 责任 提供 所 需要 的 支持 。 那 么 
这 种 支持 包括 哪些 方面 呢 ? 

原则 上 ， 这 种 支持 非常 简单 明了 : Ingres 必须 提供 一 个 特殊 的 程序 一 一 一 个 通常 所 说 的 通道 
(gateway ) 其 效果 是 “使 Oracle 看 起 来 像 Ingres 一 样 "。 如 图 21-8 所 示 ”。 通 道 可 能 运行 在 
Ingres 场地 上 或 者 Oracle 场地 上 或 者 〈 如 图 所 示 的 那样 ) 是 在 两 个 场地 之 间 的 某 个 通道 自己 的 特 
殊 场 地 上 。 但 是 不 论 它 在 哪里 运行 ， 它 至 少 必须 明确 地 提供 下 述 的 所 有 功能 。 可 以 发 现 其 中 的 许 
多 功能 会 带 来 某 个 重要 特征 的 实现 问题 。 但 是 ， 在 21. 5 节 所 讨论 的 RDA 和 DRDA 标准 确实 可 
以 解决 其 中 的 一 些 问题 ，XML 也 能 做 到 这 一 点 (参见 第 27 章 ) 。 

a 实现 在 Ingres 和 Oracle 之 间 的 信息 交 
换 协 议 一 一 包括 把 从 Ingres 发 出 的 源 
SQL 语句 的 消息 格式 映射 为 Oracle 所 
要 求 的 格式 ， 并 把 由 Oracle 发 出 的 结 
果 的 消息 格式 映射 为 Ingres 所 要 求 的 
格式 。 

为 Oracle 提供 一 种 “SQL 服务 器 ”的 
功能 (类 似 于 已 经 在 大 部 分 SQL 产品 
中 实现 的 交互 式 SQL 处 理 器 ) 。 换 名 
话说 ， 通 道 必 须 能 够 在 Oracle 数据 库 图 21-8 .一 个 假想 的 Ingres 提供 的 针对 Oracle 的 通道 
上 执行 任意 的 SQL 语句 。 为 了 提供 这 

一 功能 ， 通 道 必须 利用 对 动态 SQL 的 支持 或 者 (更 有 可 能 的 ) 是 利用 Oracle 场地 上 所 提 
供 的 SQL/CLI 或 ODBC、JDBC 之 类 的 调用 层 接 口 ( 见 第 4 章 )。 注 意 : 除 此 之 外 ， 通道 
也 可 以 直接 利用 由 Oracle 提供 的 交互 式 SQL 处 理 器 。 

在 Ingres 和 Oracle 之 间 进 行 数据 类 型 映射 。 这 个 问题 包括 一 系列 与 其 他 事情 有 关 的 子 问 
题 ， 这 里 所 说 的 其 他 事情 包括 处 理 器 之 间 的 差异 (比如 ,不 同 的 机 器 字 长 )、 字符 代码 之 
间 的 差异 (对 字符 串 的 比较 以 及 ORDER BY 请 求 的 反应 会 给 出 非 预 期 的 结果 ) 、 浮 点 格 
式 之 间 的 差异 〈 一 类 让 人 极其 反感 的 问题 ) 、 对 日 期 和 时 间 支 持 上 的 差异 〈 就 笔者 所 知 ， 
目前 没有 哪 两 个 DBMS 在 这 方面 提供 了 相同 的 支持 )， 更 不 用 说 用 户 自 定义 的 类 型 的 差 
异 。 对 于 这 些 问题 的 进一步 讨论 可 以 参见 文献 [15.6]。 

将 Ingres 的 SQL 语言 映射 成 Oracle 的 SQL 语言 一 -因为 实际 上 Ingres 和 Oracle 都 没有 完 
全 ,支持 SQL 标准 。 事 实 上 它们 都 是 只 支持 其 中 的 某 一 部 分 功能 ， 而 对 另 一 些 则 不 支持 ， 





1 1 
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名 很 明显 ,术语 “三 级 系统 ”有 时 指 的 是 图 中 的 排列 结构 (有 时 指 类 似 三 个 组 件 的 软件 结构 ; 可 专门 参考 下 一 小 
节 中 对 “中 间 件 “的 讨论 ) 。 
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同时 还 有 些 功能 在 两 个 产品 中 有 同样 的 语法 但 却 有 着 不 同 的 语义 。 注 意 : 在 这 种 连接 中 ， 
确实 有 些 通道 产品 提供 了 一 种 传递 转移 (passthrough) 的 机 制 ， 利 用 这 种 机 制 ， 用 户 可 以 
(比如 说 ) 直接 用 目标 系统 的 语言 书写 一 个 查询 ， 然 后 把 它 不 作 修改 地 通过 通道 传递 到 目 
标 系 统 上 进行 执行 。 
将 Oracle 的 反馈 信息 (返回 代码 之 类 的 ) 映射 为 mgres 的 格式 。 
将 Oracle 的 目录 表 映 射 为 Ingres 的 格式 ， 从 而 使 得 Ingres 场地 和 在 该 场地 上 的 用 户 可 以 知 
道 在 Oracle 数据 库 中 有 些 什 么 。 
处 理 在 异 构 系 统 之 间 很 容易 出 现 的 各 种 语义 不 匹配 的 问题 (可 以 参见 文献 [21.8， 
21.11, 21.14, 21.36, 21. 38 ] )。 这 可 能 会 包括 命名 的 差异 (在 Ingres 中 可 能 使 用 EMP#， 
而 在 Oracle 中 可 能 使 用 EMPNO) ; 数据 类 型 的 差异 (在 Ingres 使 用 字符 串 的 地 方 在 Oracle 
中 可 能 使 用 数字 ) ; 单位 的 差异 (在 Ingres 中 可 能 使 用 厘米 ， 而 在 Oracle 中 可 能 使 用 英 
寸 ) ; 信息 逻辑 表达 方式 的 差异 (Ingres 可 能 忽略 在 Oracle 中 使 用 空 值 的 元 组 ) 等 。 
作为 一 个 两 阶段 提交 协议 (Ingres 变 体 ) 的 参与 者 (假设 Ingres 的 事务 可 以 在 Oracle 数据 
库 上 执行 修改 操作 ) ， 通 道 是 否 能 够 真正 执行 这 一 功能 取决 于 在 Oracle 场地 上 的 事务 管理 
器 的 能 力 。 值 得 指出 的 是 ， 在 本 书写 作 的 时 候 ， 商 用 的 事务 管理 器 (除了 某 些 例外 ) 基 
本 都 不 提供 这 方面 所 需要 的 功能 一 一 也 就 是 让 应 用 程序 具有 可 以 发 出 指令 要 求 事务 管理 器 
“准备 结束 ”的 能 力 (相反 ， 而 是 只 具有 发 出 指令 要 求 事务 管理 器 结束 ， 即 无 条 件 提 交 或 
者 回 滚 的 能 力 ) 。 

sm 在 Ingres 需要 的 时 候 ， 保 证 Ingres 要 求 在 Oracle 场地 上 进行 封锁 的 数据 能 够 确实 得 到 封 

锁 。 同 样 ， 通 道 是 否 能 够 真正 执行 这 一 功能 也 基本 取决 于 Oracle 的 封锁 结构 是 否 与 Ingres 
的 相 匹 配 。 

至 此 我 们 只 是 讨论 了 在 关系 系统 环境 下 的 DBMS 独立 性 ， 那 么 其 他 的 非 关 系 系统 的 情形 又 
如 何 呢 ? 也 就 是 在 一 个 本 来 的 关系 分 布 式 系统 中 加 入 一 个 非 关 系 的 场地 的 可 能 性 是 多 少 呢 ? 比 
如 ， 是 否 可 能 提供 从 一 个 Ingres 或 Oracle 场地 到 一 个 IMS 场地 的 访问 ? 同样 ， 这 样 的 能 力 在 实 
践 中 是 非常 需要 的 ， 因 为 现在 有 大 量 的 数据 存储 在 IMS 以 及 其 他 在 关系 系统 出 现 以 前 就 已 经 存 
在 的 系统 中 2 。 但 是 这 可 以 做 到 吗 ? 

如 果 这 个 问题 的 意思 是 “ 它 可 以 100% 做 到 吗 ?” 或 者 说 是 “所 有 的 非 关 系数 据 可 以 通过 一 
个 关系 接口 被 访问 ， 并 在 其 上 执行 所 有 的 关系 操作 吗 ?” 答 案 绝对 是 不 可 以 ， 在 参考 文献 
[21. 14] 中 对 此 有 详细 的 解释 。 但 是 ， 如 果 这 个 问题 的 意思 是 “可 以 提供 一 些 有 效 完成 这 样 功 
能 的 工具 吗 ?”， 则 答案 显然 是 可 以 。 不 过 这 里 不 便 给 出 详细 的 讨论 ， 进 一 步 的 说 明 可 以 参见 文 
献 [21. 13, 21.14]。 

2. 数据 存 取 中 间 件 

上 面 一 小 节 所 描述 的 通道 〈( 有 时 更 确切 地 叫做 点 对 点 通道 ) 其 实 会 受到 许多 局 限 。 其 中 之 
一 就 是 它 几乎 没有 提供 位 置 独立 性 ， 还 有 就 是 同一 个 应 用 程序 可 能 需要 利用 许多 不 同 的 通道 
比如 一 个 是 针对 DB2 的 、 一 个 是 针对 Oracle 的 、 一 个 是 针对 Informix 的 一 一 而 却 不 提供 任何 
(比如 说 ) 对 于 跨越 所 有 此 类 场地 的 连接 操作 的 支持 。 这 种 情况 的 一 个 后 果 就 是 一 一 尽管 有 上 面 
一 小 节 中 所 提 到 的 技术 困难 ， 功 能 愈加 复杂 的 通道 类 产品 在 过 去 的 几 年 中 出 现 得 越 来 越 频 繁 了 。 
事实 上 ， 整 个 所 谓 的 中 间 件 (也 叫做 中 介 ) 的 业务 现在 从 其 自身 角度 而 言 ， 已 经 成 为 一 个 非常 
引 人 注 目的 产业 。 

所 以 也 许 并 不 奇怪 ,“ 中 间 件 ” 这 个 词 还 没有 得 到 精确 的 定义 : 对 于 在 不 同 程度 上 一 起 工作 
的 不 同系 统 而 言 ， 任 何 用 于 掩盖 其 间 差 异 的 软件 〈 比 如 一 个 TP 监控 器 ) 都 有 理由 被 认为 是 一 个 
“中 间 件 ” [21.3]。 但 是 在 这 里 我 们 只 关注 可 以 叫做 数据 存 取 中 间 件 的 软件 。 在 这 类 产品 中 有 
Cohera 公司 的 Cohera 、IBM 公司 的 DataJoiner 以 及 Sybase 公司 的 OmniConnect 和 InfoHub。 这 里 








外 ”85% 的 商业 数据 仍然 存储 在 这 样 的 系统 中 〈 也 就 是 关系 系统 出 现 前 存在 的 数据 库 系统 ， 甚 至 是 文件 系统 ) ， 并 且 
没有 迹象 表明 这 些 数据 将 很 快 移 到 更 新 的 系统 中 。 
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我 们 简要 地 介绍 一 下 DataJoiner 产品 [21.6]。 

DataJoiner 有 许多 不 同 的 配置 方法 (如 图 21-9 所 示 )。 从 一 个 独立 的 客户 的 角度 而 言 ， 它 看 
起 来 像 一 个 正规 的 数据 库 服务 器 ( 即 一 个 DBMS) ， 它 存储 数据 、 支 持 SQL 查询 、 提 供 一 个 目录 
表 、 执 行 查 询 优化 等 (实际 上 DataJoiner 的 核心 是 IBM 的 DBMS 产品 DB2 的 AIX 版 本 )。 
但 是 数据 主要 不 是 存储 在 DataJoiner 场地 上 (虽然 提供 了 这 样 的 功能 ) ， 而 是 存储 在 幕后 的 任意 
数量 的 其 他 场地 上 ， 这 些 场地 由 许多 不 同 的 DBMS 控制 着 ， 或 者 甚至 是 类 似 VSAM 这 样 的 文件 
管理 系统 。 这 样 ，DataJoiner 向 用 户 提供 了 一 个 有 效 的 虚拟 数据 库 ， 这 个 数据 库 是 所 有 那些 “ 幕 
后 的 ”数据 存储 的 联合 体 ， 它 允许 进行 跨越 这 些 数据 存储 的 查询 9 ， 并 利用 其 对 于 这 些 幕后 系 
统 的 性 能 (以 及 网 络 特点 ) 的 了 解 来 决定 “全 局 最 优 的 ”查询 计划 。 注 意 : DataJoiner 还 具有 模 
拟 能 力 ， 能 够 在 不 直接 支持 某 些 特定 的 DB2 SQL 功能 的 系统 上 对 这 些 功 能 进行 模拟 。 在 游标 声 
明 时 的 WITH HOLD 选项 可 以 作为 这 样 的 一 个 例子 (参见 第 15 章 ) 。 


[| 





客户 机 
(也 可 以 是 服务 器 ) 





pp2 or 05100] [Oracie] [ Sav sorver | [Spa ] [IMS ] [VSAM] -其 他 


图 21-9 作为 数据 存 取 中 间 件 的 DataJoiner 


直到 现在 ， 我 们 所 描述 的 系统 仍然 不 是 一 个 完全 的 分 布 式 系 统 ， 因 为 在 幕后 的 各 个 场地 之 间 
并 不 知道 彼此 的 存在 〈 即 在 协同 的 操作 中 它们 不 能 被 认为 是 同等 的 合作 者 ) 。 但 是 ， 如 果 有 任何 
新 的 “幕后 ”场地 被 添加 进来 ， 它 同样 可 以 作为 一 个 客户 场地 ， 并 通过 DataJoiner 执行 对 某 个 或 
者 所 有 其 他 场地 进行 访问 的 查询 。 整 个 系统 因此 构成 一 个 常 说 的 联合 (federated) 系统 ， 也 叫做 
多 数据 库 系统 [21. 17]。 一 个 联合 系统 是 一 个 接近 于 完全 本 地 自治 的 分 布 式 系统 (通常 是 异 构 
的 ) 。 在 这 样 的 一 个 系统 中 ， 纯 粹 的 本 地 事务 由 本 地 的 DBMS 来 管理 , 但 是 全 局 事务 就 是 另外 一 
回 事 了 [21.7]。 

DataJoiner 对 每 一 个 “幕后 的 ”系统 都 有 一 个 内 置 的 驱动 部 件 一 一 从 功能 上 说 就 是 上 一 小 节 
中 的 点 对 点 通道 (这 些 驱动 部 件 基本 上 都 是 利用 'ODBC 来 访问 远程 的 系统 )。DataJoiner 同时 还 
维护 一 个 全 局 目录 表 ， 在 遇 到 系统 之 间 语 义 不 匹 配 的 时 候 用 来 告诉 系统 应 该 如 何 处理 。 

我 们 注意 到 ， 类 似 DataJoiner 这 样 的 产品 对 于 第 三 方 软件 供应 商 来 说 是 非常 有 用 的 。 他 们 可 
以 进行 通用 的 工具 开发 〈 比 如 报表 生成 子 、 统 计 包 等 ) ， 而 不 必 考 虑 有 可 能 运行 这 些 工 具 的 不 同 
的 DBMS 产品 之 间 的 差异 。 最 后 ,我们 注意 到 ， 卫 M 最 近 已 经 把 DataJoiner 技术 应 用 到 它 的 
DBMS 产品 DB2 中 去 了 ; 意图 很 明显 ， 就 是 要 把 DB2 变 成 存储 以 各 种 形式 存在 的 数据 (在 本 书 
写作 的 时 候 ， 它 支持 对 存储 在 Informix 、Oracle、SQL Server、Sybase 以 及 其 他 系统 中 数据 的 存 





”此 处 强调 的 是 “查询 ”; 更 新 能 力 必然 会 受 某 些 限 制 ， 尤 其 是 一 一 但 不 是 完全 一 一 当 幕 后 的 系统 是 IMS 或 是 其 
他 的 非 SQL 系统 时 (请 再 次 参见 文献 [21. 14] ) 。 





取 ) 的 “唯一 真正 的 接口 ”一 一 至 少 是 唯一 真正 的 IBM 接口 。 也 就 是 说 ， 拥 有 DataJoiner 技术 
的 DB2， 表 明 IBM 意图 解决 已 为 人 们 熟知 的 所 谓 的 信息 集成 (information integration) 问题 
[21.91。 

最 后 的 说 明 

很 显然 ， 要 提供 完全 的 DBMS 独立 性 会 有 不 少 突出 的 问题 ， 即 使 是 所 有 参与 的 DBMS 都 是 
专门 的 SQL 系统 。 但 是 潜在 的 效益 同样 也 是 巨大 的 ， 即 使 解决 方案 并 不 是 完美 的 。 也 正 是 因为 
如 此 ， 才 出 现 了 许多 数据 存 取 的 中 间 件 产品 ， 而 且 在 不 久 的 将 来 肯定 还 会 有 更 多 的 产品 出 现 。 但 
是 要 提醒 你 的 是 解决 方案 肯定 不 可 能 是 完美 的 一 一 尽管 供应 商 们 所 说 的 恰恰 相反 。 购 买 者 请 
当心 ! 


21.7 SQL 的 支持 


目前 ，SQL 根本 没有 提供 任何 对 于 真正 的 分 布 式 系统 的 支持 ”。 当 然 ， 在 数据 操纵 方面 不 
需要 任何 支持 一 一 (就 用 户 而 言 ) 一 个 分 布 式 系 统 最 重要 的 是 所 有 的 数据 操纵 能 力 应 该 是 不 变 
的 。 但 是 对 诸如 FRAGMENT 、REPLICATE 之 类 的 数据 定义 操作 ， 这 种 支持 是 需要 的 [15.6]， 
然而 现在 却 没有 得 到 提供 。 

另 一 方面 ，SQL 又 确实 支持 某 些 客户 /服务 器 的 功能 ， 特 别 是 包括 用 来 建立 和 断 开 客 户 / 服 
务 器 连接 的 CONNECT 和 DISCONNECT 操作 。 实 际 上 ， 在 可 以 发 出 任何 数据 库 请 求 之 前 一 个 
SQL 应 用 都 必须 先 通过 执行 一 个 CONNECT 操作 来 建立 与 服务 器 的 连接 (虽然 这 个 CONNECT 
可 能 是 隐 式 的 )。 一 旦 已 经 建立 了 连接 ， 应 用 ( 即 客户 ) 就 可 以 像 通常 一 样 发 出 SQL 请 求 了 ， 
而 服务 器 将 进行 所 需要 的 数据 库 处 理 。 

SQL 还 允许 已 经 和 一 个 服务 器 建立 连接 的 客户 与 另 一 个 服务 器 连接 。 建 立 第 二 个 连接 会 使 
第 一 个 连接 进入 休眠 状态 ， 接 下 来 的 SQL 请 求 就 由 第 二 个 服务 器 来 处 理 ， 直 到 客户 要 么 (a) 重 
新 和 上 一 个 服务 器 连接 (通过 另外 一 个 新 的 操作 ，SET CONNECTION); 要 么 (b) 再 和 另外 
一 个 服务 器 进行 连接 ， 从 而 使 第 二 个 服务 器 进入 休 眼 状态 〈 依 此 类 推 ) 。 换 句 话说， 在 任何 时 候 
一 个 给 定 的 客户 都 只 能 有 一 个 活动 的 连接 和 若干 个 休眠 的 连接 ， 而 由 该 客户 发 出 的 所 有 数据 库 请 
求 都 会 发 到 与 之 处 于 活动 连接 的 服务 器 上 ， 并 由 其 处 理 。 

注意 : SQL 标准 还 允许 (但 是 并 不 要 求 ) 实现 对 多 服务 器 事务 的 支持 。 也 就 是 说 ， 在 一 个 
事务 中 间 ， 客 户 可 以 从 一 个 服务 器 转向 另 一 个 服务 器 ， 从 而 使 事务 的 一 部 分 在 一 个 服务 器 上 执行 
而 另 一 部 分 在 另 一 个 服务 器 上 执行 。 尤 其 要 注意 的 是 如 果 人 允许 更 新 事务 以 这 种 方式 跨越 服务 器 的 
话 ， 那 么 执行 必须 假定 支持 某 种 两 阶段 提交 ， 以 提供 标准 所 要 求 的 事务 的 原子 性 。 

最 后 ， 一 个 给 定 客户 所 建立 的 每 一 个 连接 (不 管 当 前 是 活动 的 还 是 休眠 的 ) 最 终 都 必须 由 
一 个 合适 的 DISCONNECT 操作 来 切断 (虽然 像 相应 的 CONNECT 一 样 ，DISCONNECT 在 简单 的 
情况 下 也 许 是 隐 式 的 ) 。 

要 了 解 更 多 的 内 容 一 一 尤其 是 生成 存储 过 程 的 SQL 工具 ,请 参看 SQL 标准 文本 [4. 23， 
4. 24] 或 者 参考 文献 【4. 20] 中 的 内 容 。 


21.8 小 结 


在 这 一 章 里 ， 我 们 给 出 了 一 个 关于 分 布 式 数据 库 系统 的 简要 讨论 。 以 分 布 式 系统 的 “十 二 
个 目标 ”[21. 131 作为 组 织 讨论 的 基础 ， 虽 然 这 些 目 标 并 不 是 在 所 有 情形 下 都 是 关联 在 一 起 的 。 
还 简要 地 考察 了 一 些 领 域 的 技术 问题 ， 这 些 领域 包括 查询 处 理 、 目 录 表 管理 、 更 新 传播 、 恢 复 控 
制 和 并 发 控制 。 还 特别 讨论 了 为 了 满足 DBMS 独立 性 目标 所 涉及 的 问题 (在 21.6 节 对 于 通道 和 
数据 存 取 中 间 件 以 及 联合 系统 的 讨论 ) 。 我 们 又 认真 地 探讨 了 客户 /服务 器 处 理 过 程 ， 可 以 将 它 
看 作 是 一 般 意义 下 分 布 式 处 理 的 特殊 情况 。 最 后 对 SQL 中 与 客户 /服务 器 处 理 有 关 的 方面 进行 了 





OO 不 过 ,标准 中 的 第 9 部 分 SQL/MED (Management of External Data) [4.23] 的 确 提 供 了 对 联合 系统 的 支持 。 细 
节 超 出 了 本 书 的 范围 ， 请 参阅 文献 [26. 32] 中 的 手册 。 
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汇总 ， 并 且 着 重 指出 用 户 要 避免 针对 记录 层次 编码 (在 SQL 术语 中 叫 游标 操作 ) 。 还 简要 描述 了 
存储 过 程 和 远程 过 程 调 用 的 概念 。 

注意 : 有 一 个 始终 没有 讨论 的 问题 是 分 布 式 系统 的 〈( 物理) 数据 库 设计 问题 。 实 际 上 ， 即 
使 忽略 分 片 和 /或 复制 的 可 能 性 ， 决 定 哪 些 数据 应 该 存储 在 哪些 场地 上 的 问题 一 一 所 谓 的 分 配 问 
题 一 一 也 是 一 个 非常 国手 的 难题 {21.31]。 对 于 分 片 和 复制 的 支持 只 会 使 情况 进一步 复杂 。 

值得 一 提 的 另外 一 点 是 那些 在 市 场 上 逐渐 胃 露 头角 的 所 谓 的 海量 并 行 计 算 机 系统 (参见 对 
文献 [18.56] 的 注释 ) 。 这 类 系统 基本 上 都 是 由 大 量 通 过 高 速 总 线 连 接 在 一 起 的 独立 的 处 理 器 
构成 的 ， 每 个 处 理 器 都 有 自己 的 存储 器 和 磁盘 驱动 器 ， 并 且 运 行 自己 的 DBMS 软件 ， 整 个 数据 
库 分 布 在 所 有 的 磁盘 上 。 换 句 话 说， 这样 一 个 系统 本 质 上 是 “在 一 个 盒子 里 ”构成 了 一 个 分 布 
式 系 统 ! 而 在 这 一 章 中 所 讨论 的 〈 比 如 ) 关于 查询 处 理 策 略 、 两 阶段 提交 、 全 局 死 锁 等 所 有 的 
问题 ， 都 可 以 对 应 到 这 类 系统 中 。 

作为 结论 ， 我 们 指出 ， 把 分 布 式 数据 库 的 “十 二 个 目标 ” (或 者 至 少 包 括 目标 4、5、6 和 8 
的 某 些 子 集 ) 放 在 一 起 ， 它 们 看 起 来 和 Codd 所 说 的 关系 DBMS 的 “分 布 独立 性 ”准则 [10.3] 
是 等 价 的 。 为 了 便 手 对照 ， 我 们 把 该 准则 令 述 如 下 

s 分 布 独立 性 (Codd) :“ 一 个 关系 DBMS 要 具有 分 布 独立 性 …… (就 是 说 ) DBMS 要 有 一 
种 数据 子 语言 保证 应 用 程序 和 (终端 ) 操作 能 够 保持 在 逻辑 上 没有 损失 : 

e 在 第 一 次 引入 数据 分 布 的 时 候 (如果 本 来 安装 的 DBMS 只 管理 非 分 布 的 数据 ) ; 

。 在 数据 被 重新 分 布 的 时 候 (如 果 DBMS 管理 的 是 分 布 的 数据 )。 

最 后 要 注意 (如同 在 本 章 21.3 节 中 提 到 的 ) 目标 4 ~6 以 及 9 ~12 一 一 即 所 有 在 名 字 中 包括 
“独立 性 ”一 词 的 目标 ， 它 们 可 以 被 看 作 是 类 似 数据 独立 性 之 类 的 概念 一 一 在 应 用 到 分 布 式 环境 
的 时 候 一 一 的 扩展 。 其 实 它们 的 目的 都 在 于 对 应 用 投资 的 保护 。 
习题 
21.1 用 你 自己 的 语言 来 解释 位 置 独 立 性 、 分 片 独立 性 以 及 复制 独立 性 的 概念 。 

21.2 为 什么 分 布 式 数据 库 系 统 几乎 总 是 关系 的 ? 
21.3 分 布 式 系统 的 优点 是 什么 ? 不 足 又 是 什么 ? 
21.4 解释 下 列 术 语 : 

主 副本 修改 策略 

主 副本 封锁 策略 

全 局 死 锁 

两 阶段 提交 

全 局 优化 
21.5 描述 R * 的 数据 对 象 命名 模式 。 

21.6 一 个 成 功 的 点 对 点 通道 取决 于 能 否 很 好 地 协调 (尤其 是 ) 它 所 涉及 的 两 个 DBMS 之 间 的 差异 。 任 选 

两 个 你 熟悉 的 SQL 系统 ， 尽 可 能 多 地 指出 它们 之 间 的 差异 ， 包 括 语法 和 语义 之 间 的 差异 。 

21.7 调查 任意 一 个 你 可 以 接触 到 的 客户 /服务 器 系统 ， 它 支持 显 式 的 CONNECT 和 DISCONNECT 吗 ? 它 

支持 SET CONNECTION 或 其 他 “连接 类 型 ”的 操作 吗 ? 它 支 持 多 服务 器 事务 吗 ? 它 支 持 两 阶段 提 

交 吗 ? 它 用 于 客户 /服务 器 通信 的 格式 和 协议 是 什么 ? 它 支 持 什么 样 的 网 络 环境 ? 它 支持 什么 样 的 客 

户 与 服务 器 硬件 平台 ? 它 所 支持 的 软件 平台 (操作 系统 、DBMS) 又 是 什么 ? 

21.8 调查 任意 一 个 你 可 以 接触 到 的 SQL DBMS ， 这 个 DBMS 支持 存储 过 程 吗 ? 如 果 支 持 的 话 ， 存 储 过 程 

是 如 何 创建 的 ?它们 又 是 如 何 被 调用 的 ? 它们 是 用 什么 语言 写 的 ? 它们 是 否 支 持 完整 的 SQL? 它们 

是 否 支持 条 件 分 支 结构 (IF-THEN-ELSE)? 它们 是 否 支 持 循环 ? 它们 如 何 向 客户 返回 结果 ? 一 个 存 

储 过 程 可 以 调用 另 一 个 存储 过 程 吗 ? 如 果 是 在 另外 一 个 场地 上 的 存储 过 程 呢 ? 存储 过 程 是 作为 调用 

它 的 事务 的 一 部 分 蚂 ? 
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Data, Seattle, Wash. (June 1998 ) . 

这 篇 论文 描述 了 异步 〈 文 章 中 称 为 懒 情 式 ) 复制 模式 中 的 三 种 模式 ， 这 些 异 步 复 制 模式 可 
以 确保 事务 的 原子 性 和 全 局 可 串 行 性 而 不 需要 利用 两 阶段 提交 。 文 章 中 还 给 出 了 有 关 它 们 的 性 
能 比较 的 模拟 研究 报告 。 在 文献 [21. 18] 中 提出 的 全 局 封锁 是 第 一 种 模式 ; 另外 两 种 ， 其 中 一 
个 是 悲观 式 的 ， 另 一 个 是 乐观 式 的 ， 利 用 了 一 张 复制 图 。 这 篇 论文 的 结论 是 复制 图 模式 的 性 能 
要 明显 地 优越 于 封锁 模式 ， 而 且 “ 通 常 是 大 大 地 优 于 ”。 
David Bell and Jane Grimson: Distributed Database Systems. Reading, Mass. : Addison-Wesley (1992). 

这 是 众多 分 布 式 系统 的 教科 书 中 的 一 本 (另外 两 本 是 文献 [21.10] 和 [21.29])。 这 本 书 
的 一 个 显著 的 特点 是 包含 了 一 个 关于 保健 网 络 的 扩展 案例 研究 。 而 且 在 论调 上 也 要 比 另外 两 本 
实用 一 些 。 
Philip A. Bernstein. “Middleware: A Model for Distributed System Services,” CACM 39, No.2 (Feb- 
ruary 1996 ) . 

“对 各 种 不 同 的 中 间 件 进行 了 归 类 ， 描 述 了 它们 的 特性 ， 揭 示 了 它们 的 演化 过 程 ， 并 为 理解 
今天 以 及 明天 的 分 布 式 系统 软件 提供 了 一 个 概念 模型 ”( 选 自 摘要 ) 。 
Philip A. Bernstein et al. : “Query Processing in a System for Distributed Databases ( SDD-1),” ACM 
TODS 6, No. 4 (December 1981 ) . 

参见 文献 [21. 32] 的 注释 。 
Philip A. Bernstein, David W. Shipman, and James B. Rothnie, Jr:“ Concurrency Control in a System 
for Distributed Databases (SDD-1),”ACM TODS 5, No. 1 (March 1980). 

参见 文献 [21. 32] 的 注释 。 
Charles J. Bontempo and C. M. Saracco: “Data Access Middleware: Seeking Out the Middle Ground,” 
InfoDB 9, No. 4 (August 1995 ) . 

一 本 以 BM 的 DataJoiner 为 重点 的 有 用 教程 (虽然 也 提 到 了 其 他 的 产品 ) 。 
Yuri Breitbart, Hector Garcia-Molina, and Avi Silberschatz: “ Overview of Multi-Database Transaction 
Management,” The VLDB Journal 1, No.2 ( October 1992). 
M. W. Bright, A. R. Hurson, and S. Pakzad . “ Automated Resolution of Semantic Heterogeneity in Multi- 
Databases,” ACM TODS 19, No.2 (June 1994). 
Michael L. Brodie:“ Data Management Challenges in Very Large Enterprises” (pane! outline ) , Proc. 28th 
Int. Conf On Very Large Data Bases, Hong Kong (August 2002). 

主要 的 讨论 内 容 是 信息 集成 问题 :“ 主 要 (问题 ) 是 (信息) 集成 。 最 近 的 分 析 研 究 表明 ， 
IT 预算 开支 里 超过 40% 都 用 于 新 系统 与 现存 系统 和 数据 库 之 间 的 集成 …… 集成 问题 面临 很 大 的 
挑战 和 花费 。 
Stefano Ceri and Giuseppe Pelagatti: Distributed Databases: Principles and Systems. New York, N.Y.: 
McGraw-Hill (1984). 
William W. Cohen:“Integration of Heterogeneous Databases Without Common Domains Using Queries 
Based on Textual Similarity,” Proc. 1998 ACM SIGMOD Int. Conf. on Management of Data, Seattle, 
Wash. (June 1998 ) . 

描述 了 针对 通常 所 说 的 “垃圾 邮件 问题 ”的 一 个 解决 方法 一 一 即 当 两 个 不 同 的 文本 串 ， 比 
如 “AT&T Bell Labs” 和 “AT&T Research” ， 所 指 的 是 同一 个 对 象 的 时 候 ， 要 把 它们 识别 出 来 
(当然 这 是 一 种 特定 的 语义 不 匹配 ) 。 这 个 方法 主要 是 推导 出 这 些 文本 串 的 相似 性 ， 这 些 文 本 串 
是 “用 通常 在 统计 信息 检索 中 采用 的 向 量 空间 模型 来 度量 的 "。 按 照 论文 的 说 法 ， 这 种 解决 方法 
要 比 “ 朴 质 推论 方法 ” (naive inference method) 快 得 多 ,而且 售 人 地 准确 。 
D. Daniels et 以 : “An Introduction to Distributed Query Compilation in R’ ,” in H. -J. Schneider 
(ed. ), Distributed Data Bases: Proc. 2nd Int Symposium on Distributed Data Bases ( September 
1982). New York ，N.Y, : North-Holland (1982). 

参见 文献 [21.37] 的 注释 。 
C. Date;“ What Is a Distributed Database System?” in Relational Database Writings 1985-1989, 
Reading, Mass. : Addison-Wesley (1990). 

这 篇 论文 介绍 了 分 布 式 系统 的 “十 二 个 目标 ” (21.3 节 基 本 上 是 直接 根据 这 篇 论文 安排 
的 )。 像 在 本 章 中 提 到 的 ， 本 地 自治 的 目标 不 是 可 以 100% 达到 的 ， 确 实 存在 某 些 情 况 需 要 对 这 
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一 目标 进行 某 种 程度 上 的 折衷 。 为 了 便于 参照 ， 我 们 在 这 里 归纳 一 下 这 些 情况 : 

里 一 个 被 分 片 关系 的 个 别 分 片 无 法 被 正常 地 直接 存 取 ， 甚 至 从 它们 所 存储 的 场地 上 存 取 也 
不 行 。 

一 个 被 复制 关系 (或 分 片 ) 的 单独 的 副本 无 法 被 正常 地 直接 存 取 ， 甚 至 从 它们 所 存储 的 
场地 上 存 取 也 不 行 。 

@ 设 P 是 某 个 被 复制 关系 (或 分 片 ) R 的 主 副 本 , P 存储 在 场地 XX 上。 则 每 个 要 存 玻 RR 的 

场地 都 要 依赖 于 场地 XX， 即使 是 在 该 场地 上 还 存 有 RR 的 另 一 个 副本 。 

由 对 一 个 参与 多 场地 完整 性 约束 的 关系 ， 不 能 在 存储 它 的 本 地 场地 中 进行 修改 存 取 ， 而 必 

须 在 定义 约束 的 分 布 式 数据 库 中 去 考虑 它 的 修改 存 取 。 
对 在 两 阶段 提交 进程 中 作为 一 个 参与 者 的 场地 必须 遵循 相应 的 协调 者 场地 的 决定 〈 即 提交 
或 者 回 滚 ) 。 

参见 文献 [15.6] ， 这 是 本 文 的 后 续 。 

C.J Date “Why Is It So Difficult to Provide a Relational interface to IMS?” in Relational Database: 
Selected Writings. Reading, Mass. : Addison-Wesley (1986). 

问题 “我 们 能 提供 IMS 的 一 个 关系 接口 吗 ?” 有 两 个 可 能 的 解释 : 

1) 我 们 能 构造 一 个 将 IMS 用 作 存 储 管理 器 的 关系 DBMS 吗 ? 

2) 我 们 能 在 IMS 上 面 构造 一 个 “包装 器 ”( wrapper) ， 使 现存 的 [MS 数据 看 起 来 像 关 系数 
据 ? 

如 果 解 释 趋 向 于 第 一 种 ， 那 么 很 明显 答案 是 肯定 的 (尽管 许多 的 IMS 特征 将 不 会 用 到 ) ; 
如 果 趋 向 于 后 者 ， 则 正如 文章 所 论证 的 ， 答 案 是 否定 的 (至少 不 会 达到 100% ) 。 

R. Epstein, M. Stonebraker, and E. Wong:" Distributed Query Processing in a Relational Data Base 
System,” Proc. 1978 ACM SIGMOD Int Conf on Management of Data, Austin, Tex. ( May/June 
1978). 

参见 文献 [21. 34] 的 注释 。 

Rob Goldring: “A Discussion of Relational Database Replication Technology,” InfoDB 8，No.1 
(Spring 1994 ) . 

对 于 异步 复制 的 一 个 很 好 的 概述 。 

John Grant, Witold Litwin, Nick Roussopoulos, and Timos Sellis:“ Query Languages for Relational 
Multi-Databases,” The VLDB Journal 2, No.2 (April 1993). 

给 出 了 关系 代数 和 关系 演算 在 多 数据 库 系 统 下 的 扩展 。 其 中 讨论 优化 的 问题 ， 并 且 表 明 每 
一 个 多 关系 的 代数 表达 式 都 有 一 个 等 价 的 多 关系 的 演算 表达 式 (“这 个 定理 的 逆 命 题 是 一 个 很 有 
趣 的 研究 问题 ” ) 。 

Jim Gray Pat Helland, Patrick O’ Neil, and Dennis Shasha:” The Dangers of Replication and a Solu- 
on,” Proc. 1996 ACM SIGMOD Int. Conf. on Management of Data, Montreal, Canada ( june 1996 ) . 

“在 工作 负载 扩充 的 情况 下 ， 在 任何 地 方 、 任 何 时 候 、 以 任何 方式 修改 事务 级 复制 都 会 有 不 
稳定 的 表现 …… 这 里 提出 了 一 个 新 的 算法 ， 人 允许 (处 在 断 开 状 态 的 ) 移动 应 用 给 出 一 个 试探 性 
的 修改 事务 ， 这 个 修改 可 以 在 以 后 应 用 到 主 副 本 上 ”( 选 自 摘要 ， 并 稍 作 了 修改 ) 。 

Ramesh Gupta, Jayant Haritsa, and Krithi Ramamritham :" Revisiting Commit Processing in Distributed 
Database Systems,” Proc. 1997 ACM SIGMOD Int. Conf. on Management of Data, Tucson, Ariz. 
(May 1997 ). 

本 文 提出 了 一 个 叫做 OPT 的 新 的 分 布 式 提交 协议 ， 这 个 协议 (a) 易于 实现 ; (b) 可 以 与 
传统 协议 并 存 ，(c)“ 在 各 种 工作 负载 与 系统 配置 的 情况 下 提供 了 最 佳 的 事务 吞吐 性 能 ”。 
Richard D. Hackathorn : “ Interoperability: DRDA or RDA?”, InfoDB 6, No.2 (Fall 1991). 

Michael Hammer and David Shipman:“ Reliability Mechanisms for SDD-1: A System for Distributed 
Databases,” ACM TODS 5, No. 4 (December 1980). 

参见 文献 [21. 32] 的 注释 。 

IBM Corporation: Distributed Relational Database Architecture Reference. IBM Form No. SC26-4651. 

IBM 的 DRDA 对 分 布 式 数据 库 定义 了 如 下 四 个 层次 的 功能 :远程 请 求 、 远 程 工作 单元 、 分 
布 式 工作 单元 以 及 分 布 式 请 求 。 由 于 这 些 术语 已 经 成 为 产业 界 事实 上 的 标准 〈 至少 是 在 产业 界 
的 某 些 部 分 ) ， 我 们 在 这 里 对 它们 做 个 简要 的 解释 。 注 意 :“ 请 求 ” 和 “工作 单元 ”是 1BM 的 术 
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语 ， 分 别 对 应 于 SQL 语句 和 事务 。 

1) 远程 请 求 是 指 一 个 在 场地 X 上 的 应 用 可 以 把 一 个 单独 的 SQL 语句 发 送 到 一 个 远程 场地 
Y 上 去 执行 。 这 个 请 求 完全 在 场地 Y 上 执行 和 提交 (或 者 回 滚 ) 。 在 场地 三 上 的 那个 应 用 会 接着 
发 送 另 一 个 请 求 到 场地 Y. 上 (也 可 能 是 到 另 一 个 场地 Z 上)， 而 不 管 第 一 个 请 求 是 成 功 还 是 不 成 
功 。 

2) 远程 工作 单元 (缩写 为 RUW) 是 指 一 个 在 场地 关上 的 应 用 可 以 在 一 个 给 定 的 “工作 单 
元 ”( 即 事务 ) 中 把 所 有 的 数据 库 请 求 发 送 到 一 个 远程 场地 了 上 去 执行 。 数 据 库 对 于 该 事务 的 处 
理 也 因此 就 完全 在 远程 场地 了 上 进行 ,但 是 要 由 本 地 场地 天 来 决定 该 事务 是 提交 还 是 同 滚 。 注 
意 : RUW 实际 上 就 是 在 单 服 务 器 情况 下 的 客户 /服务 器 处 理 过 程 。 

3) 分 布 式 工作 单元 (缩写 为 DUW) 是 指 一 个 在 场地 XX 上 的 应 用 可 以 在 一 个 给 定 的 “工作 
单元 ”( 即 事务 ) 中 把 某 些 或 者 所 有 的 数据 库 请 求 发 送 到 一 个 或 者 多 个 远程 场地 了 Y, Z,… 上 去 执 
行 。 因 此 一 般 而 言 ， 数 据 库 对 这 个 事务 的 处 理 是 分 散 到 许多 场地 上 的 ， 每 个 独立 的 请 求 还 是 在 
某 个 单独 的 场地 上 执行 完成 的 ， 但 是 不 同 的 请 求 可 以 在 不 同 的 场地 上 执行 。 不 过 场地 仍然 是 
协调 场地 ， 即 由 这 个 场地 决定 事务 是 提交 还 是 回 滚 。 注 意 : DUW 实际 上 就 是 在 多 服务 器 情况 下 
的 客户 /服务 器 处 理 过 程 。 

4) 最 后 ， 分 布 式 请 求 是 在 这 四 个 层次 中 唯一 实现 了 通常 所 说 的 真正 的 分 布 式 数据 库 支 持 
的 。 分 布 式 请 求 是 在 分 布 式 工 作 单 元 的 基础 上 ， 加 上 人 允许 单独 的 数据 库 请 求 〈SQL 语句 ) 跨越 
多 个 场地 一 一 比如 ， 一 个 来 自 于 场地 义 的 请 求 可 以 要 求 执行 对 分 别 来 自 于 场地 Y 和 2Z 上 的 表 的 
连接 或 合并 。 要 注意 只 有 在 这 个 层次 上 ， 系 统 才 可 以 说 是 提供 了 真正 的 位 置 独立 性 。 而 在 前 面 
的 三 种 情况 下 ， 用 户 都 必须 对 数据 的 物理 位 置 有 所 了 解 。 

International Organization for Standardization (ISO ) : Information Processing Systems, Open Systems 
Interconnection, Remote Data Access Part 1: Generic Model, Service, and Protocol (Draft Interna- 
fional Standard). Document ISO DIS 9579-1 (March 1990). 

International Organization for Standardization (ISO) : Information Processing Systems, Open Systems In- 
terconnection, Remote Data Access Part 2 .SQL Specialization (Draft International Standard). Document 
ISO DIS 9579-2 (February 1990). 

Donald Kossmann: “The State of the Ar in Distributed Query Processing,” ACM Comp. Surv 32, 
No. 4 (December 2000 ) . 

B. G. Lindsay et al. :“Notes on Distributed Databases,” IBM Research Report RJ2571 (July 1979 ) . 

(由 及 * 开发 小 组 最 初 的 部 分 成 员 所 完成 的 ) 这 篇 论文 分 为 五 章 : 

1) 复制 的 数据 

2) 授权 与 视图 

3) 对 分 布 式 事务 管理 的 介绍 

4) 恢复 功能 

5) 事务 的 启动 、 转 移 和 终止 

第 1 章 讨论 了 更 新 传播 的 问题 。 第 2 章 说 的 几乎 完全 都 是 在 一 个 非 分 布 式 系统 ( 像 System 
R 那 种 类 型 的 系统 ) 中 授权 的 问题 ， 只 是 在 结尾 的 时 候 才 作 了 一 些 其 他 的 说 明 。 第 3 章 考虑 的 
是 事务 的 启动 和 终止 、 并 发 控制 以 及 恢复 控制 ， 都 很 简要 。 第 4 章 用 来 探讨 〈 同 样 是 ) 在 非 分 
布 式 情况 下 的 恢复 。 第 5 章 较为 具体 地 讨论 了 分 布 式 事务 管理 ,特别 地 ， 还 给 出 了 一 个 非常 认 
真 的 关于 两 阶段 提交 的 表述 。 

C. Mohan and B. G. Lindsay : “ Efficient Commit Protocols for the Tree of Processes Model of Distribu- 
ted Transactions ,“ Proc. 2nd ACM SIGACT-SIGOPS Symposium on Principles of Distributed Compu- 
ting (1983). 

参见 文献 [21. 37] 的 注释 。 

Scott Newman and Jim Gray: “ Which Way to Remote SQL? “ DBP4D 4, No. 12 (December 1991 ). 
M Tamer Ozsu and Patrick Valduriez: Principles of Distributed Database Systems (2d ed. ). Englewood 
Cliffs, N.J. : Prentice-Hall (1999). 

Martin Rennhackkamp : “ Mobile Database Replication,” DBMS 10, No. 11 (October 1997 ) . 

价格 低廉 、 非 常 便 于 携带 的 计算 机 和 无 线 网 络 之 间 的 结合 ， 使 得 一 种 新 的 分 布 式 数据 库 系 
统 的 出 现成 为 可 能 ， 它 不 仅 能 带 来 特别 的 收益 ，( 当然 ) 也 会 带 来 特殊 的 问题 。 尤 其 是 这 种 系统 
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[21.31] 


[21. 32] 


[21. 33] 


盘 五 六 分 高 级 去 题 


中 的 数据 说 起 来 是 可 以 复制 到 成 千 个 “场地 ”上 去 一 一 但 是 这 些 场地 都 是 移动 的 ， 并 且 是 经 常 
掉 线 的 ， 它 们 的 操作 特点 更 是 与 较为 传统 的 场地 非常 不 同 〈 比 如 在 通信 开销 中 还 要 考虑 电池 的 
使 用 率 和 连接 的 时 间 ) 等 等 。 对 于 这 类 系统 的 研究 是 最 近 开 始 的 (相关 文献 有 [21.1] 和 
[21. 18] ) ， 而 这 篇 短文 强调 了 其 中 的 一 些 主要 概念 和 问题 。 
James B. Rothnie, Jr. , and Nathan Goodman :“A Survey of Research and Development in Distributed 
Database Management,” Proc. 3rd Int Conf on Very Large Data Bases, Tokyo, Japan ( October 
1977 ) ， 

一 篇 非常 有 用 的 早期 综述 ， 分 以 下 几 个 方面 进行 了 讨论 : 

1) 修改 事务 的 同步 

2) 分 布 式 查询 处 理 

3) 部 件 故障 处 理 

4) 目录 管理 

5) 数据 库 设计 

在 这 些 的 最 后 提 到 了 物理 设计 问题 ， 即 我 们 在 21. 8 节 中 所 说 的 分 配 问 题 。 
J. B. Rothnie, Jr., et al : “Introduction to a System for Distributed Databases (SDD-1),” ACM 
TODS 5, No. 1 (March 1980). 

文献 [21.4，21.5，21. 21，21. 32] 都 是 关于 早期 的 分 布 式 原型 SDD-1 的 。SDD-l 运行 在 
一 组 通过 Arpanet ( 见 第 27 章 27.2 节 ) 互 连 的 DEC PDP-10 上 , 它 提供 了 完全 的 位 置 独立 性 、 
分 片 独立 性 和 复制 独立 性 。 下 面 我 们 选择 这 个 系统 的 某 些 方面 做 一 些 说 明 。 

查询 处 理 : SDD-1 的 查询 优化 器 ( 见 文献 [21.4]) 大 范围 地 利用 了 第 7 章 7.8 小 节 中 所 
描述 的 半 连 接 操作 。 在 分 布 式 查询 处 理 中 使 用 半 连 接 操作 的 好 处 是 它们 具有 减少 网 络 中 数据 传 
输 量 的 作用 。 比 如 ， 假 设 供应 商 关 系 变量 5 存储 在 场地 4 上 ， 发 货 关 系 变量 SP 存储 在 场地 B 
上 ， 而 查询 是 “对 供应 商 关 系 和 发 货 关系 进 行 连接 ” 。 可 以 不 用 (比如 说 ) 把 整个 5 传送 到 8 
上 ， 而 是 像 下面 这 样 做 : 

@ 计算 在 场地 B 上 对 SP 的 5# 的 投影 TEMP1 。 

亚 将 TEMP1 发 送 到 场地 4。 

在 场地 A 上 计算 TEMP1 和 5 关于 S# 的 半 连 接 ， 得 到 TEMP2。 

四 将 TEMP2 发 送 到 场地 B。 

在 场地 8B 上 计算 TEMP2 和 SP 关于 5S# 的 半 连 接 。 

这 个 过 程 会 明显 减少 通过 网 络 传输 的 数据 总 量 ， 当 且 仅 当 


size (TEMP1) + size (TEMP2) < size (S) 


这 里 一 个 关系 的 “大 小 ”(size) 是 指 这 个 关系 中 元 组 的 数目 与 一 个 单独 元 组 的 长 度 〈 比 如 用 位 
来 计算 ) 的 乘积 。 显 然 优化 器 要 能 够 估计 中 间 结 果 ， 比 如 说 TEMP1 和 TEMP2 的 大 小 。 

更 新 传播 SDD-1 的 更 新 传播 算法 是 “立即 传播 ”( 这 里 没有 主 副本 的 概念 ) 。 

并 发 控制 : 并 发 控制 是 基于 所 谓 的 时 稚 技 术 ， 而 不 是 封锁 技术 。 其 目的 是 为 了 避免 与 封锁 
相关 的 消息 开销 ， 但 是 代价 似乎 是 实际 上 并 没有 真正 地 并 发 ! 有 关 细 节 已 经 超出 了 本 书 的 讨论 
范围 (不 过 参考 文献 [16. 3] 的 注释 确实 非常 简要 地 描述 了 一 下 基本 的 想法 ) 。 更 多 的 内 容 可 以 
参见 文献 [21.5]。 

恢复 控制 : 恢复 是 基于 一 个 四 阶段 提交 协议 ， 目 的 是 为 了 使 在 协调 者 场地 上 的 处 理 能 够 比 
传统 的 两 阶段 提交 协议 更 有 弹性 ， 但 是 ， 遗 憾 的 是 它 还 是 使 得 处 理 在 相当 大 的 程度 上 变 得 更 为 
复杂 。( 同样) 细节 的 讨论 超出 了 本 书 的 范围 。 

目录 表 : 目录 表 是 当 作 普 通 的 用 户 数 据 来 管理 的 一 一 它 可 以 被 任意 地 分 片 ， 而 分 片 也 可 以 
被 任意 地 复制 和 重新 分 布 ， 就 像 其 他 数据 一 样 。 这 种 方法 的 优点 是 显而易见 的 。 当 然 缺点 就 是 ， 
由 于 系统 没有 任何 关于 一 个 给 定 部 分 的 目录 表 的 位 置 的 先 验 信息 ， 它 必须 维护 一 个 更 高 级 别 的 
目录 表 一 一 字典 定位 器 一 一 以 提供 这 样 的 确切 信息 ! 这 个 字典 定位 器 是 全 复制 的 〈 即 在 每 个 场 
地 上 都 存 有 一 个 副本 ) 。 

P. G. Selinger and M. E. Adiba: “ Access Path Selection in Distributed Data Base Management Sys- 
tems,” in S. M Deen and P. Hammersley (eds. ) Proc, Int. Conf. on Data Bases, Aberdeen, Scot- 
land (July 1980). London, England.: Heyden and Sons Ltd. (1980). 





[21. 34] 


[21.35] 


[21. 36] 


[21. 37] 


[21. 38] 
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参见 文献 [21.37] 的 注释 。 
M. R. Stonebraker and E. J. Neuhold. “ A Distributed Data Base Version of Ingres,” Proc. 2nd Berkeley 
Conf. on Distributed Data Management and Computer Networks, Lawrence Berkeley Laboratory (May 
1977). 

文献 [21.15，21.34，21.35] 都 是 关于 分 布 式 Ingres 原型 的 。 分 布 式 Ingres 由 许多 Univer- 
sity Ingres 的 副本 构成 ， 运 行 在 许多 互 连 的 DEC PDP-11 上 。 它 (和 SDD-1 及 R' 一 样 ) 支持 位 
置 独立 性 ; 它 也 支持 具有 分 片 独立 性 的 数据 分 片 ( 不 是 通过 投影 ， 而 是 通过 选择 )， 以 及 具有 复 
制 独立 性 的 对 这 些 分 片 的 数据 复制 。 与 SDD -1 和 R' 不同 ,分布 式 Ingres 并 不 假设 通信 网 络 的 
速度 很 慢 ; 相反 ， 它 被 设计 为 对 于 “缓慢 的 ” (远程 的 ) 网 络 和 本 地 的 〈 即 相当 快 的 ) 网 络 都 
可 以 处 理 〈 优 化 器 明白 这 两 种 情况 的 差异 ) 。 查 询 优化 算法 基本 上 是 本 书 第 18 章 中 所 说 的 Ingres 
分 解 策略 (了 gres decomposition strategy) 的 扩展 ， 在 文献 [21. 15] 中 有 关于 它 的 详细 叙述 。 

分 布 式 Ingres 提供 两 种 更 新 传播 算法 : 一 个 是 “性 能 优先 ”算法 ， 它 只 是 修改 主 副 本 然后 
就 将 控制 交还 给 事务 〈 而 将 外 改 的 传播 交 由 若干 个 子 进程 并 行 地 执行 ); 另 一 个 是 “可 靠 ” 算 
法 ， 它 立即 修改 所 有 的 副本 〈 见 文献 【21. 35] ) 。 并 发 控制 在 两 种 情况 下 都 是 基于 封锁 的 ， 而 恢 
复 控制 是 基于 改进 的 两 阶段 提交 。 

对 于 目录 表 而 言 ， 分 布 式 Ingres 采用 了 把 对 数据 库 某 些 部 分 的 目录 表 进 行 全 复制 和 对 其 他 
部 分 使 用 纯粹 的 本 地 目录 表 记 录 相 结合 的 方法 。 进 行 全 复制 的 部 分 主要 包括 一 个 所 有 用 户 可 见 
的 关系 变量 的 逻辑 说 明和 一 个 关于 关系 变量 如 何 进行 分 片 的 说 明 ， 其 他 部 分 包括 对 本 地 物理 存 
储 结构 、 本 地 数据 库 的 统计 信息 ( 供 优化 器 使 用 ) 以 及 安全 性 与 完整 性 约束 的 说 明 。 
M. R. Stonebraker: “Concurrency Control and Consistency of Multiple Copies in Distributed Ingres,” 
{IEEE Transactions on Software Engineering 5, No. 3 (May 1979). 

参见 文献 [21. 34] 的 注释 。 
Wen-Syan Li and Chris Clifton: “Semantic Integration in Heterogeneous Databases Using Neural Net- 
work ,”Proc. 20th Int. Conf. on Very Large Data Bases, Santiago, Chile (September 1994). 
R. Williams et al. :.“R'* ; An Overview of the Architecture,” in P. Scheuermann( ed. ) , Improving Da- 
tabase Usability and Responsiveness. New York, N.Y..: Academic Press (1982). Also available as 
IBM Research Report RJ3325 (December 1981). 

文献 [21. 12，21.27，21.33，21. 37] 都 是 关于 R' 的 ， 它 是 最 初 的 System R 原型 的 分 布 式 
版 本 。R " 提供 了 位 置 独 立 性 ,但 是 没有 分 片 和 复制 ， 因 此 也 就 不 具备 分 片 独立 性 和 复制 独立 性 。 
同样 的 原因 ， 更 新 传播 的 问题 也 就 不 存在 了 。 并 发 控制 是 基于 封锁 的 (要 注意 任何 被 封锁 的 对 
象 都 只 有 一 份 ， 主 副本 问题 也 不 存在 ) 。 恢 复 控制 是 基于 改进 的 两 阶段 提交 。 
Ling Ling Yan, Renée J. Miller, Laura M. Haas, and Ronald Fagin : ”Data-Driven Understanding and 
Refinement of Schema Mappings,” Proc. 2001 ACM SIGMOD Int Conf. on Management of Data, 
Santa Barbara, Calif. (May 2001 ) . 





第 22 章 决策 支持 


22.1 引言 


注意 : 本 章 的 原作 者 为 David McGoveran。 

决策 支持 系统 是 用 于 对 企业 信息 进行 辅助 分 析 的 系统 。 系 统 的 目的 是 帮助 管理 者 “发 现 趋 
势 、 查 明 问 题 并 进行 智能 化 的 决策 ” [22.91。 这 种 系统 的 来 源 是 业务 的 研究 、 管 理 的 行为 和 科 
学 理论 以 及 统计 处 理 控制 ， 等 等 ， 可 以 追溯 到 20 世纪 40 ~50 年 代 ， 那 时 计算 机 还 没有 被 广泛 使 
用 。 系 统 的 基本 思想 是 从 企业 操作 型 数据 中 收集 (参见 第 1 章 ) 并 精简 信息 ， 使 之 能 用 来 分 析 
企业 行为 ， 并 智能 地 改变 企业 行为 。 当 时 的 客观 条 件 下 人 们 只 能 将 数据 精简 到 极 小 ， 常 常会 只 比 
简单 的 摘要 报告 稍 多 一 点 。 

到 了 20 世纪 60 年 代 后 期 和 70 年 代 早 期 ， 哈 佛 大 学 和 MIT 的 研究 人 员 促进 了 计算 机 在 决策 
处 理 中 的 应 用 [22. 26] 。 开 始 时 这 种 应 用 局 限于 自动 化 报表 生成 ， 虽 然 当 时 已 经 具备 了 某 些 基 
本 的 分 析 能 力 [22.6 -22.8] 。 早 期 的 这 些 计算 机 系统 被 称 为 管理 决策 系统 ; 后 来 发 展 为 管理 信 
息 系 统 。 不 过 我 们 更 愿意 使 用 现代 的 术语 一 一 决策 支持 系统 ， 因 为 管理 信息 系统 的 概念 过 于 抽 
象 ， 包 括 OLTP 系统 (OLTP = Online transaction processing) 在 内 的 所 有 的 信息 系统 都 可 以 被 称 
为 “管理 信息 系统 ”( 毕 竟 ， 这 些 系统 都 包括 在 企业 管理 中 并 且 对 其 产生 影响 ) 。 接 下 来 的 内 容 
我 们 将 采用 现代 的 术语 “决策 支持 系统 ”。 

在 20 世纪 70 年 代 开 发 出 了 许多 查询 语言 ， 围 绕 这 些 查询 语言 建立 了 许多 特定 的 决策 支持 系 
统 ， 使 用 报表 生成 子 (如 RPG) 或 数据 获取 工具 (如 Focus、Datatrieve 和 NOMAD) 来 实现 。 
这 些 系 统 首次 让 具有 一 定 技能 的 最 终 用 户 直接 访问 计算 机 数据 存储 ， 也 就 是 说 ， 让 这 些 用 户 在 数 
据 存 储 上 阐明 商务 相关 查询 ， 并 直接 执行 这 些 查询 ， 而 无 需 了 T 技术 人 员 的 协助 。 

当然 ， 上 面 提 到 的 数据 存储 一 般 是 一 些 简 单 文件 。 那 时 大 多 商业 数据 保存 在 这 种 文件 中 ， 后 
来 保存 在 非 关 系 型 数据 库 中 (当时 关系 型 数据 库 正在 研究 之 中 ) 。 即 便 在 后 来 ， 人 们 也 常常 需要 
在 数据 库 中 将 数据 提取 出 来 ， 然 后 拷贝 到 文件 中 以 便 被 决策 支持 系统 使 用 。 直 到 80 年 代 ， 关 系 
型 数据 库 才 开始 取代 简单 文件 在 决策 支持 系统 中 的 位 置 (实际 上 ,决策 支持 、 特 定 查询 和 报表 
都 出 现 于 关系 技术 在 商业 上 的 早期 应 用 中 ) 。 尽 管 SQL 产品 现在 已 经 得 到 了 广泛 的 应 用 ， 抽 取 处 
理 (extract processing) 的 思想 ( 即 从 操作 型 环境 中 复制 数据 到 其 他 环境 ) 仍然 是 很 重要 的 ; 它 
允许 用 户 按 自己 的 意愿 来 操作 这 些 抽取 出 来 的 数据 ， 而 无 须 和 操作 型 环境 打交道 。 显 然 ， 在 决策 
支持 中 需要 经 常 进行 这 种 抽取 工作 。 

从 以 上 的 简短 发 展 史 可 以 明显 看 出 ， 决 策 支持 实际 上 并 不 属于 数据 库 技术 , 它 只 是 (尽管 
是 很 重要 的 一 个 ) 数据 库 技术 的 应 用 ， 更 准确 地 说 ， 它 是 由 多 个 这 种 应 用 所 组 成 ， 这 些 应 用 彼 
此 独立 而 又 相互 关联 。 目 前 正在 研究 的 相关 问题 包括 数据 仓库 、 数 据 集 市 、 操 作 型 数据 存储 、 联 
机 分 析 处 理 (OLAP) 、 多 维 数据 库 和 数据 控 所 等， 我 们 将 在 以 后 的 章节 中 讨论 这 些 相 关内 容 。 
不 过 ， 我 们 很 快 会 注意 到 在 以 上 的 这 些 领域 中 存在 一 个 共同 点 ， 就 是 很 少 会 用 到 良好 的 逻辑 设计 
原则 。 决 策 支 持 经 常 是 相当 特定 的 应 用 ， 此 时 更 需要 多 考虑 物理 实现 中 的 细节 ， 对 逻辑 设计 则 不 
会 要 求 那么 严格 。 的 确 ， 决 策 支 持 趋向 于 在 很 大 程度 上 模糊 了 逻辑 和 物理 上 的 区 别 。 由 于 有 这 些 
因素 ， 本 章 中 使 用 SQL， 而 不 是 Tutorial D， 作 为 示例 的 基础 。 同 时 使 用 “更 模糊 的 ”SQL 术 
语 ， 如 行 、 列 和 表 ， 而 不 是 元 组 、 属 性 、 关 系 值 和 变量 (关系 变量 ) 。 另 外 还 使 用 逻辑 模式 和 物 
理 模 式 ， 作 为 第 2 章 中 的 概念 模式 和 内 模式 的 同义词 。 

本 章 的 各 节 是 这 样 安排 的 : 在 22. 2 节 中 讨论 决策 支持 的 某 些 特征 ， 这 些 特 征 容易 引起 误导 
的 设计 。 在 22. 3 节 中 给 出 处 理 这 些 问题 的 方法 。 在 22. 4 节 对 数据 准备 〈 将 操作 型 数据 转换 为 可 
供 决 策 支 持 使 用 的 形式 ) 的 结果 进行 检验 ， 同 时 简要 介绍 “操作 型 数据 存储 ”。 在 22.5 节 中 讨 
论 数 据 仓 库 、 数 据 集 市 和 “多 维 模式 ”。 在 22.6 节 中 讨论 联机 分 析 处 理 (OLAP) 和 多 维 数据 
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库 。 在 22. 7 节 中 讨论 数据 挖掘。 在 22. 8 节 中 简略 介绍 了 相关 的 SQL 工具 。 最 后 ， 在 22. 9 节 中 
给 出 本 章 小 结 。 


22.2 决策 支持 的 特征 


决策 支持 数据 库 具 有 一 些 特 征 ， 最 主要 的 一 点 是 : 这 种 数据 库 主 要 (并 不 是 完全 ) 是 只 读 
的 。 更 新 操作 一 般 仅 限 于 周期 性 的 上 载 和 刷新 操作 ， 即 偶尔 的 INSERT-DELETE 操作 ， 几 乎 没有 
UPDATE 操作 。( 有 时 会 更 新 某 些 辅助 的 工作 表 ， 但 是 一 般 的 决策 支持 处 理 基本 上 不 会 更 新 决策 
支持 数据 库 本 身 。) 

决策 支持 数据 库 中 还 有 一 些 值得 关注 的 特征 (将 在 22. 3 节 中 了 予以 详细 阐述 ) ， 前 三 个 为 逻 
辑 特 征 ， 后 三 个 为 物理 特征 。 

a 列 常常 在 组 合 中 使 用 。 

s 一 般 不 考虑 完整 性 约束 〈 假 定数 据 在 载 人 时 就 是 正确 的 ， 以 后 不 再 更 新 ) 。 

a 码 中 常常 包含 时 间 成 分 (适当 的 时 间 支 持 通常 非常 重要 一 一 见 第 23 章 , 但 这 样 的 支持 
很 少 ) 。 

m 数据 库 会 变 得 很 庞大 ， 特 别 是 随 着 时 间 推 移 〈 常 常会 这 样 ) ， 企 业 事务 ”细节 数据 会 不 断 
增加 。 

= 数据 库 中 建立 索引 的 负担 非常 繁重 。 

= 数据 库 中 包含 多 种 受 控 元 余 (controlled redundancy) 。 

决策 支持 查询 也 有 自己 的 特征 ， 特 别 是 它们 会 变 得 相当 复杂 。 复 杂 性 中 包括 : 

se 布尔 表达 式 复 杂 性 : 决策 支持 查询 的 WHERE 子 句 经 常会 涉及 复杂 表达 式 一 难以 书写 、 难 
以 理解 而 且 系统 也 难以 有 效 实 现 。 一 个 常见 的 问题 是 涉及 时 间 的 查询 〈 比 如 ， 查 询 出 在 指定 时 
间 间 隔 中 最 大 时 间 截 所 在 的 行 ) 。 如 果 查 询 中 还 包括 连接 操作 ， 尤 其 是 没有 适当 的 时 间 支 持 时 ， 
那 就 会 变 得 非常 复杂 。 这 时 的 性 能 无 疑 是 很 差 的 。 

= 连接 复杂 性 : 决策 支持 查询 常常 需要 访问 多 种 事实 。 在 完全 规范 化 设计 的 数据 库 中 ， 这 种 
查询 将 涉及 大 量 连接 操作 。 不 幸 的 是 ， 连 接 处 理 技术 无 法 满足 不 断 增长 的 决策 支持 查询 需求 。 
因此 设计 人 员 会 对 数据 库 进 行 逆 规范 化 ， 预 连接 ( prejoining) 某 些 表 。 但 是 ， 正 如 第 13 章 中 所 
提 到 的 ， 这 种 方法 很 难 奏效 (有 时 解决 了 部 分 问题 ， 却 同样 会 引 来 另外 一 些 问 题 ) 。 而 且 这 种 避 
免 连接 的 期 望 使 得 我 们 无 法 有 效 地 使 用 关系 操作 ， 当 从 数据 库 中 检索 大 量 数据 时 ， 连 接 处 理 必须 
在 应 用 中 完成 ， 而 不 是 由 DBMS 来 完成 这 项 工作 。 

as 函数 复杂 性 : 决策 支持 查询 经 常会 涉及 到 统计 函数 和 其 他 数学 函数 ， 很 少 有 产品 支持 这 些 
函数 (尽管 这 种 状况 正 有 一 些 改观 ) 。 因 此 查询 常常 被 划分 为 一 系列 子 查询 ， 然 后 在 其 中 插 人 一 
些 用 户 编写 的 过 程 来 进行 所 需 的 计算 。 这 种 方法 的 缺点 是 需要 检索 大 量 的 数据 ， 从 而 导致 整个 查 
询 变 得 难以 编写 和 理解 。 | 

s 分 析 复 杂 性 : 企业 问题 很 少 能 在 单个 查询 中 予以 解答 。 一 方面 因为 用 户 难 以 编写 特别 复杂 
的 查询 ， 另 一 方面 是 因为 SQL 的 实现 中 存在 某 些 限制 ， 从 而 无 法 处 理 这 种 查询 。 解 决 方法 之 一 
是 将 这 种 查询 划分 为 一 系列 子 查询 ， 并 将 中 间 结 果 保 存在 辅助 表 中 。 

以 上 列举 了 决策 支持 数据 库 和 决策 支持 查询 的 特征 ， 讨 论 的 重点 集中 于 有 关 性 能 的 设计 ， 特 
别 是 批 插 人 和 特定 检索 的 性 能 。 不 过 这 种 情况 只 应 该 影响 到 数据 库 的 物理 设计 ， 而 非 还 辑 设计 
(在 下 一 节 详 细 阐 述 ) 。 不 幸 的 是 ， 如 同 在 22. 1 节 中 提 到 的 ， 决 策 支持 系统 的 销售 商 和 用 户 常 党 





， 旬 在 这 里 以 及 本 章 中 的 其 他 位 置 ， 当 事务 是 企业 的 一 个 事务 时 〈 除 非 上 下 文 指 的 是 本 书 第 四 部 分 中 讨论 的 事务 ) ， 
我 们 将 通过 加 “企业 ”这 一 修饰 词 来 区 别 企业 事务 〈 比 如 ， 产 品 销售 ) 和 本 书 第 四 部 分 中 讨论 的 事务 含义 。 
外 作者 (McGoveran) 曾 于 1981 年 研究 过 早期 的 决策 支持 系统 。 那 时 他 注意 到 一 个 涉及 三 个 中 等 大 小 的 表 连 楼 的 
时 候 会 花费 多 个 小 时 。4 个 到 6 个 表 连 接 的 时 候 代 价 是 相当 大 的 。 现 在 ，6 个 到 10 个 的 大 表 连 接 是 很 常见 的 ， 
而 且 技 术 处 理 的 也 相当 好 。 然 而 ， 仍 然 常常 需要 更 多 个 表 的 连接 ， 当 前 的 技术 还 不 能 很 好 地 处 理 。 很 快 人 们 将 
会 研究 涉及 到 12 个 乃至 更 多 个 表 的 连接 ， 因 为 现在 对 这 样 的 查询 的 需求 是 很 常见 的 ! 注意 : 参考 附录 A 去 寻求 
这 个 问题 的 一 个 可 能 的 解决 方案 。 
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无 法 正确 区 分 逻辑 和 物理 问题 ”， 实 际 上 他 们 经 常会 完全 放弃 逻辑 设计 。 这 样 的 后 果 是 ， 为 了 处 
理 上 面 所 讨论 的 不 同 特征 导致 了 特殊 化 ， 并 且 在 平衡 正确 性 、 可 维护 性 、 性 能 、 缩 放 性 和 可 用 性 
需求 时 会 遇 到 难以 克服 的 困难 。 


22.3 决策 支持 的 数据 库 设计 


在 本 书 的 前 面部 分 (第 三 部 分 引言 ) 中 已 经 说 明了 我 们 的 观点 ， 即 数据 库 设计 至 少 应 分 为 
两 个 阶段 ， 逻 辑 设 计 和 物理 设计 : 

a. 首先 应 该 进行 逻辑 设计 。 在 这 个 阶段 ， 重 点 放 在 关系 正确 性 (relational correctness) 上 。 
表 要 表达 适当 的 关系 ， 从 而 保证 关系 操作 的 正确 执行 。 要 指定 域 (类 型 ) ， 然 后 在 域 上 定义 列 ， 
这 样 列 之 间 的 依赖 关系 (比如 FD》 就 可 以 识别 出 来 。 最 后 进行 规范 化 ， 定 义 适 当 的 完整 性 
约束 。 

b. 然后 根据 逻辑 设计 来 进行 物理 设计 。 在 这 个 阶段 ， 重 点 放 在 存储 效率 和 性 能 上 。 从 理论 
上 讲 ， 任 何 物理 方案 都 是 可 行 的 ， 只 要 在 逻辑 和 物理 模式 之 间 存 在 一 种 保持 信息 的 变换 ， 能 用 关 
系 代数 予以 表达 〈 见 参考 文献 [2.5])。 正 是 由 于 这 种 变换 的 存在 ,保证 了 在 物理 模式 中 存在 一 
些 关系 型 视图 ， 使 得 它 看 起 来 与 逻辑 模式 相似 ， 反 之 亦 然 。 

当然 ， 逻 辑 模式 会 不 断 变 化 〈 例 如 ， 为 了 适应 新 的 数据 或 新 发 现 的 依赖 关系 时 ) ， 从 而 要 求 
物理 模式 作 相应 的 变化 。 我 们 关注 的 是 当 修 改 物 理 模 式 的 时 候 ， 能 否 保 持 逻 辑 模式 不 变 。 例 如 ， 
假设 表 SP (发 货 ) 和 P (零件 ) 之 间 的 连接 是 目前 的 主要 访问 模式 ， 我们 准备 在 物理 层 “ 预 连 
接 ” 表 SP 和 P， 从 而 降低 WO 和 连接 开销 。 但 是 ， 如 果 要 实现 物理 数据 独立 性 ， 逻 辑 模式 就 应 
该 保持 不 变 〈 当然， 如 果 我 们 希望 性 能 得 到 提升 ， 就 必须 让 查询 优化 器 知道 “ 预 连接 ”的 存在 ， 
并 适当 地 使 用 它 ) 。 此 外 ， 如 果 以 后 访问 模式 改 为 只 访问 单个 表 而 不 是 多 表 连 接 ， 我 们 应 该 能 够 
再 次 改变 物理 模式 ， 使 得 表 SP 和 P 在 物理 上 分 离 ， 并 且 不 会 影响 到 逻辑 层 。 

以 上 的 阐述 表明 ， 保 持 物理 数据 独立 性 的 问题 基本 上 就 是 支持 视图 更 新 的 问题 。 除 此 之 外 ， 
正如 在 第 21 章 中 讨论 的 分 片 更 新 问题 ， 在 整个 系统 架构 上 它 与 它 的 表现 有 所 不 同 。 特 别 地 ， 我 
们 需要 能 够 更 新 这 些 视图 。 其 实 是 ， 如 果 (a) 我 们 把 逻辑 层 的 基 表 看 作 视图 ， 同 时 把 物理 层 上 
这 些 “视图 ”相应 的 存储 版 本 看 作 基 表 ， 那 么 (b) 物理 模式 必须 要 使 得 DBMS 能 够 按照 “ 基 
表 ” 执 行 这 些 “ 视 图 ”更 新 。 

从 第 10 章 我 们 看 到 ， 理 论 上 所 有 的 视图 都 是 可 更 新 的 。 同 样 ， 在 理论 上 ， 如 果 从 逻辑 模式 
导出 满足 以 上 阐述 的 物理 模式 ， 就 可 以 实现 最 大 的 物理 数据 独立 性 ， 任何 在 逻辑 模式 中 的 更 新 都 
可 以 自动 转换 为 相应 的 物理 模式 中 的 更 新 ， 反 之 亦 然 。 但 是 物理 模式 的 改变 并 不 会 要 求 改变 逻辑 
模式 。 但 是 ， 现 有 的 SQL 产品 不 能 正确 地 支持 视图 更 新 。 因 此 ， 在 这 些 产品 中 就 只 能 (并且 不 
是 必要 的 ) 考虑 可 允许 的 物理 模式 。 注 意 : 实际 上 ， 我 们 可 以 使 用 存储 过 程 、 触 发 器 、 中 间 件 
或 者 它们 的 组 合 来 模拟 正确 的 视图 更 新 机 制 。 但 是 ， 这 些 技术 本 章 不 作 讨论 。 

1. 逻辑 设计 

逻辑 设计 的 规则 与 数据 库 的 用 途 无 关 ， 对 于 不 同 的 应 用 使 用 相同 的 规则 。 因 此 ， 在 OLTP 或 
决策 支持 应 用 中 的 数据 库 逻 辑 设计 没有 什么 不 同 : 它们 实际 都 采用 相同 的 步骤 。 现 在 回顾 一 下 第 
22. 2 节 中 提 到 的 决策 支持 数据 库 的 三 个 逻辑 特征 ， 以 及 它们 对 逻辑 设计 所 产生 的 影响 。 

@ 列 的 组 合 和 更 少 的 依赖 

决策 支持 查询 (可 能 还 有 更 新 ) 常常 把 列 的 组 合 视 为 一 个 整体 ， 组 合 中 的 列 不 会 被 单独 访 
间 (地 址 就 是 一 个 很 明显 的 例子 ) 。 称 这 种 列 的 组 合 为 复合 列 。 从 逻辑 设计 中 视图 的 观点 来 看 ， 
这 种 复合 列 可 以 被 视 为 没有 组 合 的 简单 列 。 更 具体 地 说 ， 令 CC 为 复合 列 ，C 是 同一 个 表 中 的 简 
单列 ， 那么 C 和 CC 中 的 组 件 之 间 的 依赖 关系 实际 上 可 归纳 为 C 和 CC 之 间 的 依赖 关系 。 进 一 步 
来 说 ， 仅 涉及 CC 中 的 组 件 之 间 的 依赖 关系 是 不 相关 的 ， 可 以 被 忽略 。 这 样 依赖 关系 的 总 数 会 减 





”数据 仓库 和 OLAP 的 专家 在 这 方面 有 一 定 的 责任 。 他 们 常 指出 关系 设计 对 于 决策 支持 是 完全 不 合适 的 ， 关 系 模 
型 不 能 够 表现 数据 ， 因 此 绝 不 能 采用 。 这 种 观点 将 很 容易 导致 人 们 无 法 区 别 关 系 模型 与 它 的 实现 。 
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少 ， 逻辑 设计 变 得 更 简单 ， 涉 及 到 的 列 和 表 的 数目 也 会 减少 。 

一 般 的 完整 性 约束 

由 于 前 文 阐述 的 原因 : (a) 决策 支持 数据 库 主 要 是 只 读 的 ; (b) 当 数 据 库 中 数据 上 载 或 刷 
新 时 进行 数据 完整 性 检验 。 大 家 可 能 会 认为 在 逻辑 模式 中 无 须 声 明 完 整 性 约束 。 实 际 上 并 不 是 这 
样 的 。 即 使 数据 库 真 的 是 只 读 的 ， 可 以 保证 完整 性 约束 ， 但 是 约束 中 还 包含 了 不 可 忽略 的 语义 信 
息 。 第 9 章 中 提 到 ， 约 束 是 用 来 定义 表 和 整个 数据 库 的 语义 。 约 束 的 声明 告诉 用 户 数据 的 含义 ， 
从 而 帮助 他 们 准确 描述 查询 。 同 时 约束 的 声明 还 可 以 向 优化 器 提供 至 关 重 要 的 信息 (参见 第 18 
章 关 于 语义 优化 的 探讨 ) 。 

注意 : 当 在 一 些 产品 中 声明 某 些 约束 时 ， 会 自动 创建 索引 和 其 他 的 强制 机 制 ， 从 而 增加 数据 
上 载 和 刷新 的 开销 。 因 此 ， 设 计 人 员 应 避免 约束 的 声明 。 但 是 ， 这 个 问题 是 由 于 混淆 了 逻辑 和 物 
理 问 题 : 可 以 在 逻辑 层 单独 指定 完整 性 约 东 的 声明 ， 在 物理 层 指定 相应 的 强制 机 制 。 可 惜 现在 的 
产品 还 不 能 将 逻辑 层 和 物理 层 完 全 分 离 ， 并 且 它 们 根本 不 能 识别 约 东 的 语义 值 。 

四 时 态 码 

操作 型 数据 库 一 般 只 涉及 当前 数据 ， 决 策 支持 数据 库 一般 涉 及 历史 数据 ， 因 此 会 给 几乎 所 有 
的 数据 盖 上 时 间 稚 。 这 样 在 决策 支持 数据 库 的 码 中 常常 包含 时 间 戳 列 。 例 如 ， 在 前 面 提 到 的 供应 
次 -零件 数据 库 ， 假 如 需要 显示 每 次 发 货 时 的 月 份 (1 ~12 月 )。 发 货 表 SP 应 该 如 图 22-1 所 示 。 
新 增 的 列 MID (month ID) 加 入 到 表 SP 的 码 中 。 关 于 表 SP 的 查询 中 也 应 指定 时 间 蕉 。 在 22. 2 
节 中 会 给 出 简略 描述 ， 第 23 章 中 进行 了 深入 讨论 。 

注意 ; 为 了 在 码 中 加 入 时 间 戳 列 可 能 需要 重新 设计 数据 库 。 例 如 ， 假 设 每 次 发 货 的 数量 是 由 
发 货 的 月 份 所 决定 的 〈 图 22-1 中 的 示例 数据 符合 这 种 约束 ) 。 在 表 SP 中 就 存在 函数 依赖 MID 一 
QTY， 因 此 它 就 不 符合 第 五 范式 ， 需 要 进一步 规范 化 为 图 22-2 中 的 形式 。 不 幸 的 是 ， 决 策 支持 
设计 人 员 很 少 会 关心 这 种 传递 依赖 。 对 此 ， 第 23 章 中 进行 了 深入 讨论 。 


| MID | MORTH_OTY | MID [QTY | 
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图 22-1 表 SP 中 的 示例 图 22-2 对 图 22-1 规范 化 以 后 的 结果 
数据 ， 包 含 month Ids 
2. 物理 设计 


在 22. 2 节 中 提 到 决策 支持 数据 库 趋向 于 大 型 数据 库 ， 索引 任务 繁重 ， 而 且 涉 及 多 种 受 控 元 
余 (controlled redundancy) 。 下 面 详细 讨论 物理 设计 问题 。 

首先 考虑 分 区 〈 也 称 为 分 片 ) 。 分 区 是 处 理 “ 大 型 数据 库 ” 的 一 种 方法 ; 基于 物理 存储 的 考 
虚 ， 它 将 给 定 的 表 划 分 为 不 相交 的 分 区 或 分 片 (参见 第 21 章 中 关于 分 片 的 描述 ) 。 分 区 可 以 有 
效 地 提高 被 查 表 的 可 管理 性 和 可 用 性 。 一 般 给 每 个 分 区 分 配 一 定 的 专用 资源 (如 磁盘 空间 、 
CPU) ， 并 尽量 减少 分 区 之 间 的 资源 竞争 。 按 照 分 区 函数 将 表 水 平 划分 ”， 以 选取 列 的 值 〈 分 区 
的 码 ) 作为 参数 ， 返 回 分 区 号 或 地 址 。 这 种 函数 一 般 支 持 区 域 、 哈 希 和 循环 分 区 〈 参 见 第 18 章 





个 ”垂直 划分 尽管 可 能 有 优势 ， 但 由 于 很 少 有 系统 支持 ， 因 此 用 的 不 多 。 





440 费 五 部 分 谎 级 专题 


中 的 参考 文献 【18. 56] 的 注释 ) 。 

现在 来 考虑 索引 。 众 所 周知 ， 使 用 合适 的 索引 可 以 显著 减少 LO 的 负担 。 大 多 数 早期 的 
SQL 产品 只 提供 一 种 索引 ， 即 B 树 ， 不 过 现在 出 现 了 更 多 的 索引 技术 ， 特 别 是 在 决策 支持 数据 
库 中 ,包括 位 图 、 散 列 、 多 表 、 布 尔 、 孙 数 型 索引 和 原 有 的 B 树 索 引 。 下 面 简 略 地 进行 说 明 : 

s B 树 索 引 ; B 树 索引 能 提高 区 域 查 询 的 效率 (除非 要 访问 的 行 数 过 多 ) 。 对 B 树 的 更 新 也 

相当 有 效 。 

sa 位 图 索引 : 假设 表 了 (已 建 索引 ) 中 有 4 行 , C 是 了 中 的 列 ，C 上 的 位 图 索引 是 一 个 位 

的 向 量 ,与 C 所 在 值 域 中 的 每 一 个 值 对 应 。 根 据 第 > 行 的 C 列 的 值 来 设置 索引 相应 的 位 。 
当 值 域 比 较 小 时 可 以 明显 提高 查询 效率 。 一 些 关系 运算 〈 连 接 、 并 、 相 等 约束 等 ) 可 以 
通过 对 索引 进行 简单 的 位 运算 (与 、 或 、 非 ) 即 可 得 到 。 只 有 当 获 取 最 终 的 检索 结果 时 
才 会 访问 表 中 的 实际 数据 。 

于 哈 项 索引 〈 哈 希 访问 或 哈 希 ) : 使 用 哈 希 索引 可 以 提高 访问 特定 行 〈 不 是 某 些 区 域 ) 的 效 
率 。 只 要 险 希 函数 不 需要 其 他 的 键 值 ， 计 算 的 开销 只 会 随 着 行 数 的 增加 线性 增长 。 哈 希 技 
术 也 可 以 提高 连接 效率 ， 参 见 第 18 章 。 

于 多 表 索 引 〈 连 接 索 引 ) : 一 般 说 来 ， 多 表 索 引 中 包含 了 指向 多 表 中 的 记录 的 指针 ， 而 不 是 

只 限于 单个 表 。 多 表 索 引 可 以 提高 表 连 接 的 效率 ， 并 检验 多 表 〈 即 数据 库 ) 完整 性 约 东 。 
见 参考 文献 [22.33]。 

布尔 索引 (表达 式 索引 ) : 布尔 索引 显示 表 中 的 哪些 行 对 于 特定 的 布尔 表达 式 为 真 。 当 布 
尔 表达 式 是 某 些 约 束 条 件 的 公共 部 分 时 ， 布 尔 索引 会 很 有 用 。 

日 函数 型 索引 ， 函数 型 索引 不 是 简单 的 行 值 的 索引 ， 而 是 这 些 行 值 对 应 的 特定 函数 值 的 

索引 。 

除了 上 述 的 这 些 索引 ， 有 人 还 提出 了 混合 索引 (由 上 述 索 引 组 合 而 成 ) ， 很 难 将 它 归 类 。 另 
外 还 有 一 些 专用 索引 (如 R 树 ， 用 于 处 理 几 何 数据 ) 。 本 书 中 不 讨论 这 些 索引 ， 详 细 介绍 见 参 考 
文献 [26. 37] 。 

接 下 来 ,我们 来 讨论 受 控 元 余 。 受 控 元 余 用 来 减少 IO 和 资源 争 用 。 第 1 章 中 已 经 提 到 ， 这 
种 元 余 是 由 DBMS 管理 而 对 用 户 透 明 ( 注意 : 宛 余 是 完全 在 物理 层 而 不 是 逻辑 层 被 控制 ， 因 此 
不 会 影响 逻辑 层 的 正确 性 ) 。 受 控 元 余 分 为 两 类 ， 

s 第 一 类 涉及 到 原始 数据 的 精确 制品 (replica) 。 注 意 : 除 此 之 外 同样 存在 着 非 精 确 的 复制 ， 

即 复制 管理 。( 见 下 一 小 节 ) 

se 第 二 类 涉及 到 除 原始 数据 外 的 导出 数据 ， 一 般 形式 为 汇总 表 或 计算 (或 导出 ) 列 。 

下 面 的 子 小 节 分 别 讨论 每 一 种 的 可 能 性 。 

3. 复制 

在 21.3、21. 4 节 中 已 经 介绍 了 关于 复制 (replication) 的 基本 概念 (特别 在 第 21.4 节 中 的 
“更 新 传播 ”小 节 中 予以 详细 阐述 ); 这 里 只 重复 讨论 几 个 要 点 并 予以 评论 。 首 先 要 提 到 的 是 复 
制 可 以 是 同步 的 ， 也 可 以 是 异步 的 。 

s 在 同步 的 情况 下 ， 如 果 某 个 给 定 复制 品 被 更 新 了 ， 那 么 包含 重 肥 数据 的 其 他 复制 品 也 应 该 

在 同一 个 事务 中 被 更 新 ， 因 此 理论 上 讲 只 能 存在 数据 的 一 个 版 本 。 大 多 数 产 品 是 使 用 触发 
器 程序 来 实现 同步 复制 〈 可 能 是 隐 含 地 由 系统 管理 ) 。 不 过 ， 同 步 复制 有 一 个 缺点 ， 当 更 
新 任何 一 个 复制 品 时 给 所 有 的 事务 增加 了 开销 (这 样 也 可 能 导致 可 用 性 问题 ) 。 

se 在 异步 的 情况 下 ， 对 某 个 复制 品 更 新 后 ， 会 在 以 后 将 这 种 更 新 传播 给 其 他 的 复制 品 ， 而 不 
要 求 在 同一 个 事务 内 全 部 更 新 。 因 此 ， 在 异步 复制 中 就 有 时 间 延 迟 或 等 待 时 间 的 概念 ， 在 
这 个 时 间 间 隔 内 ， 复 制品 之 间 可 能 会 不 一 致 ( 当然 复制 品 这 个 术语 也 就 不 是 很 贴切 了 ， 
因为 我 们 讨论 的 已 不 再 是 真正 的 副本 了 ) 。 大 多 数 产品 采用 读 取 事 务 日 志 或 读 取 需 传播 的 
稳定 更 新 的 队列 的 两 种 方法 来 实现 异步 更 新 。 

异步 更 新 的 好 处 是 将 复制 的 开销 从 更 新 事务 中 分 离 出 来 ， 这 种 事务 一 般 是 “关键 任务 ”型 
事务 或 对 性 能 有 较 高 要 求 的 事务 。 而 它 的 缺点 则 是 数据 的 不 一 致 性 (就 是 用 户 所 见 到 的 不 一 致 
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性 ” ) ， 也 就 是 说 ， 可 以 在 逻辑 层 看 到 这 种 宛 余 ， 严 格 地 说 ， 此 时 “ 受 控 宛 余 ”这 个 术语 也 就 不 
是 很 贴切 的 了 。 
我 们 对 一 致 性 (或 不 一 致 性 ) 的 问题 进行 一 下 简短 的 阐述 。 事 实 上 ， 由 于 一 些 很 难 避 免 
(并 非 不 可 能 ) 并 且 很 难 修改 的 因素 ， 复 制品 变 得 不 一 致 了 。 尤 其 是 更 新 顺序 的 不 同 会 导致 冲突 
的 出 现 。 比 如 ， 假 设 事务 4 在 复制 品 X 中 插入 一 行 ， 然 后 事务 B 将 该 行 删除 ， 再 假设 7 了 是 X 的 
一 个 复制 。 如 果 更 新 是 以 相反 的 顺序 传播 到 了 ( 比如 是 由 于 路 由 的 延迟 )，B 发 现在 了 中 没有 要 
删除 的 行 ， 然 后 事务 4 将 该 行 插入 ! 最 终 的 结果 是 了 包含 该 行 而 X 却 没有 。 通 常 ， 冲 突 管理 和 
强制 一 致 性 是 个 难题 。 更 深 的 讨论 超出 了 本 书 的 范围 。 
正如 在 第 21 章 中 所 提 到 的 ， 至 少 在 商业 领域 ,“ 复 制 ” 主 要 指 的 是 异步 复制 。 
复制 和 复制 管理 (copy management) 之 间 的 根本 区 别 是 ， 在 复制 中 ， 对 某 个 复制 品 的 更 新 
会 “自动 ”传播 给 其 他 所 有 的 复制 品 。 相 反 地 ， 在 复制 管理 中 没有 这 种 自动 传播 ; 数据 的 复制 
品 是 由 一 些 批 处 理 或 后 台 进 程 来 创建 和 管理 的 ， 这 些 进程 与 更 新 事务 在 时 间 上 是 分 离 的 。 复 制 管 
理 一 般 比 复制 效率 高 ， 因 为 可 以 同时 复制 大 量 数 据 ， 缺 点 则 是 复制 品 在 大 多 数 时 间 都 与 基本 数据 
不 一 致 。 实 际 上 ， 用 户 一 般 要 知道 数据 是 什么 时 候 被 同步 的 。 复 制 管理 常常 被 简化 ， 以 保证 对 某 
些 “ 主 要 复制 ”模式 的 一 致 性 更 新 (参见 第 21 章 ) 。 
4. 导出 数据 
我 们 要 考虑 的 其 他 宛 余 是 导出 数据 ; 尤其 是 计算 列 和 汇总 表 ， 它 们 在 决策 支持 环境 中 非常 重 
要 ， 用 来 保存 预先 计算 的 数值 (根据 数据 库 中 的 其 他 数据 计算 出 来 )， 这 样 ， 在 查询 的 时 候 就 无 
须 重复 计算 。 
a 计算 列 的 值 是 从 同一 条 记录 中 的 其 他 列 计算 得 到 。( 或 者 ， 也 可 能 通过 计算 同一 个 表 或 者 
不 同 表 的 几 条 记录 得 到 计算 列 的 值 。 因 此 ， 这 种 方法 意味 着 更 新 一 行 记 录 时 可 能 还 需要 更 
新 其 他 的 许多 行 ; 特别 地 ， 这 种 方法 可 能 在 装载 和 刷新 操作 时 会 产生 很 大 的 负 作 用 。) 

sa 汇总 表 是 对 其 他 表 的 聚集 运算 ( 求 和 、 平 均值 、 计 数 ， 等 等 ) 结果 ， 育 集运 算 常常 是 在 
相同 细节 数据 的 不 同 分 组 上 进行 预计 算 (参见 22.6 节 第 )。 注 意 : 汇总 表 还 有 一 系列 不 
同 的 名 称 ， 包 括 自 动 汇总 表 (ASTs，automatic summary tables ) 、 事 实 查 询 表 (MQTs， 
materialized query tables) 、 快 照 和 “事实 视图 ” (materialized views ) 。 我 们 曾 在 第 10 章 的 
10. 5 节 接 触 到 最 后 两 个 术语 ， 在 那里 我 们 特别 讨论 了 术语 “事实 视图 ”。 这 个 概念 在 文献 
里 面 占 了 很 大 一 部 分 ,文献 的 大 部 分 用 术语 “视图 ”专门 来 表示 “事实 视图 ” (参见 
[22.3] 和 [22.4])。 
汇总 表 和 计算 列 一 般 通 过 系统 管理 的 触发 器 程序 来 实现 ， 当 然 也 可 以 由 用 户 编写 的 程序 实 
现 。 第 一 种 方法 可 以 保证 基本 数据 和 导出 数据 之 间 的 一 致 性 ， 而 第 二 种 方法 则 很 可 能 导致 不 一 致 
性 。 当 然 ， 如 果 计 算 列 和 汇总 表 真 的 属于 受 控 宛 余 的 范畴 ， 就 应 该 是 对 用 户 透 明 的 ， 可 是 在 现在 
的 产品 中 却 不 是 这 样 的 。 
5. 常见 设计 错误 
在 本 小 节 中 ， 我 们 评论 决策 支持 环境 中 常见 的 一 些 设计 错误 : 
四 重复 行 : 决策 支持 设计 人 员 经 常 说 他 们 的 数据 没有 唯一 的 标识 符 ， 因 此 允许 重复 。 参 考 文 
献 [6.3] 和 [6.6] 中 详细 阑 述 了 为 什么 重复 行 的 存在 是 个 错误 ; 其 实 导 致 这 种 错误 出 
现 的 原因 是 因为 物理 模式 并 不 是 从 逻辑 模式 中 导出 ， 甚 至 根本 就 没有 设计 逻辑 模式 。 而 且 
在 这 种 设计 中 ， 行 经常 缺乏 同 义 的 语义 一 一 也 就 是 说 ， 它 们 根本 不 是 同一 个 断言 的 实例 
(参见 3.4 节 或 第 9 章 ) 。 注 意 : 有 时 会 故意 允许 重复 行 的 出 现 ， 特 别 是 当 设计 人 员 具 有 面 
向 对 象 的 知识 背景 时 (参见 25. 2 节 的 最 后 一 段 ) 。 

四 逆 规 范 化 和 相关 的 实践 : 出 于 消除 连接 运算 和 减少 IO 的 考虑 ， 设 计 人 员 常 常会 预 连 接 
表 ， 引 人 各 种 导出 列 ， 等 等 。 这 种 做 法 可 以 在 物理 层 出 现 ， 但 不 应 该 出 现在 逻辑 层 中 。 

四 星 型 模式 ;“ 星 型 模式 ” (多 维 模式 ) 是 试图 “短路 ” (short-circuit) 正常 设计 技术 的 结 





旬 参考 前 面 章节 中 对 于 该 主题 的 评论 。 
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果 ， 实际 上 兹 大 于 利 。 当 数据 增长 时 会 影响 性 能 和 灵活 性 ， 而 且 通 过 物理 层 重新 设计 来 解 
决 这 种 问题 又 会 导致 应 用 的 改变 (因为 星 型 模式 是 物理 模式 ) 。 注 意 : 在 下 面 的 22.5 节 
中 予以 详细 探讨 。 

sm 空 值 : 设计 人 员 经 常 希望 通过 允许 列 中 出 现 空 值 来 节省 空间 ( 如果 列 中 包含 的 是 变 长 数 
据 类 型 ， 而 且 产 品 中 在 物理 层 通过 清空 列 的 方法 来 实现 空 值 的 话 ， 也 许可 以 节省 空间 ) 。 
但 是 可 以 通过 良好 的 设计 来 避免 空 值 [19. 19] ， 并 能 够 提供 更 好 的 存储 效率 和 更 好 的 W/O 
性 能 。 

里 汇总 表 的 设计 : 人 们 一 般 不 去 考虑 汇总 表 的 逻辑 设计 问题 ， 因 此 导致 了 失控 元 余 而 且 难 以 
维护 数据 的 一 致 性 ， 用 户 不 能 明白 汇总 表 的 真正 语义 ， 无 法 正确 阐述 所 需 的 查询 。 为 了 避 
免 这 种 问题 ， 所 有 属于 相同 聚集 层次 的 汇总 表 ( 见 22. 6 小 节 ) 应 该 被 设计 为 构成 了 自己 
的 数据 库 。 通 过 (a) 禁止 跨 聚 集 层 次 的 更 新 ; 和 〈b) 总 是 从 细节 数据 中 诊 集 来 更 新 汇 
总 表 ， 可 以 避免 一 些 循环 更 新 的 问题 。 

“多 重 导 航路 径 ”: 决策 支持 设计 人 员 和 用 户 经 常 错误 地 说 可 以 通过 “多 重 导航 路 径 ” 得 到 
所 需 数据 ， 相 同 的 结果 可 以 通过 不 同 的 关系 表达 式 得 到 。 有 时 这 些 表达 式 是 等 价 的 ， 例 如 4 
JOIN (B JOIN C) 和 (A JOIN 8) JOIN C (参见 第 7 章 ); 有 时 是 由 完整 性 约束 来 保证 它们 
等 价 (参见 第 18 章 ); 但 有 时 它们 根本 不 等 价 ! 比如 对 于 最 后 一 种 情况 ,假设 表 4、B 都 有 
公共 列 KAB， 表 B、C 都 有 公共 列 KEBC， 表 4、C 都 有 公共 列 KAC; 那么 “在 KAB 连接 A 和 
B 然后 将 结果 在 KBC 和 C 连接 ”一 般 上 不 会 等 价 于 “直接 在 KAC 上 连接 A 和 C”。 

很 显然 ， 这 些 错误 会 让 用 户 迷 惑 ， 不 知道 应 该 如 何 表述 要 求 ， 才 能 得 到 所 需 的 查询 结果 。 要 
解决 这 些 问 题 ， 可 以 对 用 户 进行 适当 培训 ， 使 优化 器 正常 工作 ， 但 是 因为 某 些 问题 出 自 于 设计 人 
员 人 允许 在 逻辑 层 出 现 宛 余 ， 并 人 允许 用 户 直接 访问 物理 模式 ， 所 以 还 要 通过 正确 的 设计 来 解决 。 

总 的 来 说 ， 由 决策 支持 需求 引起 的 很 多 设计 难题 可 以 依据 设计 原则 加 以 解决 。 实 际 上 ， 也 是 
因为 没有 遵循 设计 原则 才 会 出 现 这 些 问题 (尽管 这 些 问题 常常 由 于 SQL 的 一 些 问 题 而 加 重 ) 。 


22. 4 数据 准备 


围绕 决策 支持 的 很 多 问题 首先 是 关于 数据 的 获取 和 准备 工作 。 从 不 同 数据 源 中 提取 数据 ， 进 
行 清洗 、 转 换 和 合并 整理 ， 载 人 到 决策 支持 数据 库 中 ， 然 后 进行 周期 性 的 刷新 。 每 一 步 操作 都 会 
涉及 到 各 自 的 考虑 事项 ”。 我 们 将 检视 各 个 步骤 ， 并 在 本 节 末 尾 简略 讨论 操作 型 数据 存储 (op- 
erational data store ) 。 

1. 提取 

提取 是 从 操作 型 数据 库 和 其 他 数据 源 中 捕获 数据 的 过 程 。 很 多 工具 可 以 用 于 辅助 这 项 工作 ， 
包括 系统 提供 的 实用 程序 、 定 制 的 提取 程序 和 商业 的 提取 产品 。 提 取 过 程 要 进行 大 量 的 YO 操 
作 ， 可 能 会 影响 到 关键 任务 的 处 理 ， 因 此 一 般 是 在 物理 层 进行 并 行 化 操作 。 但 是 这 种 “物理 提 
取 ” 可 能 会 丢失 信息 (尤其 是 联系 信息 ) 那些 用 物理 方式 表达 的 信息 (比如 指针 或 物理 毗连 
性 ) ， 从 而 导致 后 续 处 理 上 的 问题 。 出 于 这 方面 的 考虑 ， 提 取 程 序 有 时 通过 引入 连续 的 记录 号 和 
更 换 影 响 外 码 的 指针 来 保留 这 种 信息 。 

2. 清洗 

很 少 有 数据 源 能 充分 保证 数据 质量 ， 所 以 当 数 据 进入 决策 支持 数据 库 之 前 要 进行 清洗 (cleans- 
ing) (一 般 成 批 清洗 ) 。 典 型 的 清洗 操作 包括 填充 遗失 的 数据 、 纠 正印 刷 错误 和 数据 条 目 错误 、 建 
立 标准 的 缩 略 语 和 格式 、 使 用 标准 标识 符 来 替代 同义词 ， 等 等 。 无 法 清洗 的 错误 数据 将 被 驱 回 。 注 
意 : 根据 清洗 过 程 得 到 的 信息 有 时 可 以 用 来 识别 数据 错误 的 原因 ， 从 而 不 断 提高 数据 质量 。 

3. 转换 和 合并 

在 清洗 过 以 后 ， 还 需要 进行 合适 的 转换 ， 才 能 使 数据 满足 决策 支持 的 需要 。 决 策 支 持 中 所 和 需 
的 数据 形式 为 一 组 文件 ， 各 个 表 在 物理 上 要 区 分 开 ， 这 样 在 转换 时 就 要 求 切 分 或 合并 数据 源 中 的 





G 我们 顺便 提 一 下 ， 这 些 操作 常 得 益 于 关系 系统 的 成 批 处 理 能 力 ， 尽 管 实际 上 很 少 如 此 。 





条 22 和 茧 次 区 支 拜 443 


记录 (参见 1.5 节 )。 注 意 : 在 转换 时 可 能 会 发 现 清洗 时 未 发 现 的 数据 错误 ， 这 些 错误 数据 同样 
也 被 驶 回 (如 前 所 述 ， 这些 信息 也 可 以 用 来 提高 数据 源 的 数据 质量 )。 

当 需 要 对 多 个 数据 源 进 行 合 并 时 ， 转 换 就 显得 非常 重要 ， 称 之 为 合并 过 程 。 这 时 ， 数 据 间 的 
任何 隐 式 联系 都 要 被 显 式 表示 (通过 引 人 显 式 的 数据 ) 。 另 外 ， 还 要 维护 和 商务 相关 的 日 期 时 间 
信息 ， 将 数据 源 关 联 起 来 ， 此 过 程 称 之 为 “时 间 同 步 ”[ 引用 原文 中 的 原 词 ] 。 

出 于 性 能 上 的 考虑 ， 转 换 操 作 常 常 是 并 行 处 理 的 ， 需 要 大 量 的 IO 和 CPU 开销 。 

注意 : 时 间 同 步 是 个 难题 。 例 如 ， 假 设 我 们 要 获取 每 个 季度 各 个 售货员 的 客户 收入 。 客 户 和 
收入 数据 按 财政 季度 保存 在 会 计数 据 库 中 ， 而 售货员 和 客户 数据 按 日 历 季度 保存 在 销售 数据 库 
中 。 很 显然 ， 需 要 将 两 个 数据 库 合并 起 来 。 客 户 数据 的 合并 很 简单 一 一 只 需 匹 配 客户 编号 即 可 。 
然而 时 间 同 步 则 很 困难 ， 我 们 可 以 找到 每 个 财政 季度 的 客户 收入 ， 但 却 不 知道 此 时 是 哪个 售货员 
和 这 位 客户 打交道 ， 也 根本 不 知道 每 个 日 历 季度 中 的 客户 收入 。 

4. 载 入 

DBMS 销售 商 很 注重 载 人 操作 的 效率 。“ 载 人 操作 ”包括 : (a) 将 转换 和 合并 过 的 数据 移入 
决策 支持 数据 库 中 ;(b) 检验 一 致 性 (integrity checking) ; (c) 建立 必需 的 索引 。 下 面 对 各 个 
步骤 作 简略 阐述 : 

a. 移动 数据 : 现代 的 系统 一 般 提 供 并 行 载 人 功能 。 有 时 在 载 人 之 前 要 预 格式 化 数据 为 目标 
数据 库 中 规定 的 内 部 物理 格式 。 一 种 高 效 的 替代 技术 是 将 数据 载 人 到 目标 模式 的 镜像 工作 表 中 ， 
在 这 些 工 作 表 上 作 完 整 性 检验 一 一 参见 下 面 b 一 一 然后 成 批 地 从 工作 表 移 动 到 目标 表 中 。 

b. 完整 性 检验 : 大 多 数 完整 性 检验 工作 可 以 在 数据 载 人 之 前 进行 而 无 须 涉及 已 经 载 人 数据 
库 中 的 数据 ， 但 是 ， 某 些 约束 检验 必须 涉及 到 已 存 人 数据 库 中 的 数据 ; 例如 ， 唯 一 性 约束 就 必须 
在 载 人 时 进行 检验 (或 者 在 载 人 完毕 后 成 批 检验 ) 。 

c. 建立 索引 : 索引 的 存在 会 明显 减缓 数据 载 人 的 速度 ， 因 为 在 大 多 数 产品 中 每 插 人 一 条 新 
记录 就 会 对 索引 进行 更 新 。 因 此 ， 在 载 人 前 删除 索引 ， 载 人 后 再 重建 索引 有 时 不 失 为 一 个 好 主 
意 。 当 新 数据 的 数量 相对 已 有 数据 的 数量 较 小 时 就 不 值得 这 么 做 ， 因 为 创建 索引 的 开销 并 不 与 表 
的 大 小 成 正比 。 而 且 ， 创 建 大 索引 可 能 会 引起 不 可 恢复 的 分 配 错误 ， 索 引 越 天 就 越 可 能 出 现 这 种 
错误 。 注 意 : 大 多 数 DBMS 产品 支持 并 行 创建 索引 ， 以 加 速 载 人 和 索引 创建 的 过 程 。 

5. 刷新 

大 多 数 决 策 支持 数据 库 要 求 周期 性 地 刷新 以 保证 数据 的 及 时 性 。 尽 管 某 些 决策 支持 应 用 要 求 
全 部 删除 所 有 数据 然后 再 载 人 ， 一 般 在 刷新 中 还 是 只 涉及 部 分 数据 的 载 人 。 刷 新 与 载 人 类 似 ， 但 
可 能 会 在 用 户 访问 数据 库 时 同时 进行 〈 隐 含 着 更 深层 次 的 问题 ) 。 

6. 操作 型 数据 存储 

操作 型 数据 存储 (ODS) 是 “面向 主题 的 、 集 成 的 、 可 变 的 〈 可 更 新 的 ) 、 最 近 的 或 几乎 最 
近 的 数据 集合 ”[ 22. 20 ] 。 换 句 话 说， 它 是 一 种 特殊 的 数据 库 。 术 语 “ 面 向 主题 ”表示 数据 属于 
特定 的 主题 范围 〈 例 如 ， 顾 客 、 产 品 等 ) 。 操 作 型 数据 存储 可 用 于 〈a) 对 提取 的 操作 型 数据 进 
行 物理 重组 ，(b) 提供 操作 型 报表 ; 以 及 (c) 支持 操作 型 决策 。 它 同时 还 可 以 作为 〈d) 一 个 
合并 点 ， 如 果 操 作 型 数据 来 自 多 个 数据 源 。 因 此 ，ODS 是 多 用 途 的 。 注 意 : 由 于 ODS 中 不 积累 
历史 数据 ， 所 以 一 般 不 会 太 大 ; 换 名 话说， 它们 一 般 会 经 常 或 连续 地 使 用 操作 型 数据 进行 刷新 。 
因此 有 时 候 采用 从 操作 型 数据 源 到 ODS 的 异步 复制 〈 这 样 数据 就 可 以 在 几 分 钟 之 内 得 到 保持 ) 。 
因为 刷新 的 频率 很 快 ， 所 以 也 解决 了 时 间 同 步 问 题 (参见 上 面 的 “转换 和 合并 ”小 节 )。 


22.5 数据 仓库 和 数据 集 市 


操作 型 系统 一 般 要求 高 性 能 、 可 预知 的 工作 量 、 较 小 处 理 单元 和 高 可 用 性 。 而 决策 支持 系统 
一 般 有 变化 的 性 能 需求 、 不 可 预知 的 工作 量 、 较 大 处 理 单元 和 不 稳定 的 可 用 性 。 这 些 差别 使 得 很 
难 将 操作 型 处 理 和 决策 支持 处 理 合并 到 一 个 系统 中 ， 特 别 是 当 需 要 考虑 功能 规划 、 资 源 管理 和 系 
统 性 能 调 优 的 时 候 。 出 于 以 上 原因 ， 操 作 型 系统 的 管理 人 员 不 愿意 在 其 系统 上 进行 决策 支持 ， 这 
样 就 出 现 了 双 系 统 (dual-system) 方法 。 
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注意 ; 事情 并 不 总 是 这 样 。 早 期 的 决策 支持 系统 实际 上 就 存在 于 操作 型 系统 之 中 ， 在 低 优 先 
级 或 “ 批 处 理 窗口 ”中 运行 。 如 果 有 足够 的 资源 ， 这 样 做 有 很 多 好 处 一 一 避免 了 额外 的 数据 复 
制 、 重 新 格式 化 以 及 转换 的 开销 。 实 际 上 ， 操 作 型 事务 和 决策 支持 事务 的 集成 正 日 益 被 重视 
( 见 文献 [21. 9] ) ， 不 过 这 个 问题 超出 了 本 章 讨 论 的 范围 。 
在 编写 本 章 时 ， 一般 要 从 多 个 操作 型 系统 (常常 是 分 离 的 ) 中 采集 决策 支持 数据 ， 然 后 存 
储 在 自己 的 数据 存储 中 ， 称 之 为 数据 仓库 。 
1. 数据 仓库 
类 似 操 作 型 数据 存储 (也 类 似 数据 集 市 一 一 参见 下 一 小 节 )， 数 据 仓 库 是 一 种 特殊 的 数据 
库 。 这 个 术语 来 源 于 20 世纪 80 年 代 后 期 [22. 15，22. 18 ] ， 或 者 更 早 。 参 考 文献 [22. 19」 中 将 
数据 仓库 定义 为 “面向 主题 的 、 集 成 的 、 稳 定 的 、 随 时 间 变 化 的 数据 存储 ， 用 于 决策 支持 ”( 稳 
定 的 含义 是 数据 在 插入 后 不 再 改变 ,但 可 以 删除 )。 数 据 仓库 出 现 的 起 因 有 两 个 : 首先， 决策 支 
持 中 需要 一 个 单一 的 、 纯 净 的 、 一 致 的 数据 源 ; 其 次 ， 无 须 变 动 操作 型 系统 。 
根据 定义 ， 数 据 仓库 的 工作 量 就 是 决策 支持 的 工作 量 ， 因 此 是 查询 密集 的 (有 时 也 会 进行 
密集 的 批 插入 操作 ) ; 同样 ， 数 据 仓 库 本 身 会 不 断 变 大 (常常 达到 数 T 字 节 ， 每 年 增长 50% 或 更 
多 ) 。 因 此 性 能 调 优 尽管 可 能 ， 也 显得 很 困难 。 可 缩放 性 也 是 一 个 问题 。 关 于 这 些 问 题 的 研究 包 
括 (a) 数据 库 设计 错误 (参见 22.3 节 ); (b) 仅 用 关系 操作 无 法 满足 需要 (参见 第 22.2 节 ); 
(c) 在 关系 模型 下 的 DBMS 实现 有 很 多 缺点 ; (d) DBMS 本 身 缺 少 可 缩放 性 ; (e) 限制 了 功能 
和 平台 可 缩放 性 的 结构 设计 错误 。(a) 和 (b) 已 经 在 本 章 中 予以 讨论 ，(c) 在 本 书 的 第 二 部 分 
给 予 详 细 的 讨论 ，(d) 和 (e) 超出 了 本 章 讨论 的 范围 。 
2. 数据 集 市 
数据 仓库 一 般 用 来 为 决策 支持 提供 单一 的 数据 源 。 但 是 ， 自 从 20 世纪 90 年 代 初 数据 仓库 开 
始 流行 以 来 ， 人 们 逐渐 意识 到 用 户 常 常 只 是 在 数据 仓库 中 某 个 相对 较 小 的 主题 领域 内 生成 报表 或 
分 析 数 据 。 实 际 上 ， 用 户 偏向 于 当 这 个 主题 领域 内 的 数据 刷新 时 重复 同样 的 操作 。 而 且 ， 其 中 的 
一 些 操作 一 一 例如 ， 预 测 分 析 、 模 拟 、 建 立 “ 如 果 …… 会 怎么 样 ” 的 模型 一 一 会 创建 新 的 模式 
和 数据 ， 并 进一步 更 新 这 些 新 数据 。 
在 整个 数据 仓库 的 同一 个 子 集 上 重复 执行 这 些 操 作 显 然 效 率 较 低 ， 根 据 用 途 来 裁剪 数据 仓 
库 ， 建 立 一 些 有 限 的 、 专 用 的 “仓库 ”看 来 是 个 好 主意 。 在 某 些 情况 下 ， 为 了 加 快 访问 数据 的 
速度 ， 需 要 能 够 直接 从 本 地 数据 源 中 提取 和 准备 所 需 数据 ， 而 无 须 等 待 全 部 数据 都 被 载 人 数据 仓 
库 后 再 进行 同步 。 由 此 产生 了 数据 集 市 的 概念 。 
现在 对 于 数据 集 市 还 没有 统一 的 定义 ， 我 们 给 出 的 定义 是 “特定 的 、 面 向 主题 的 、 集 成 的 、 
可 更 新 的 、 随 时 间 变 化 的 数据 存储 ， 用 于 支持 特定 子 集 的 管理 决策 ”。 数 据 集 市 与 数据 仓库 之 间 
的 主要 区 别 在 于 它 是 特定 的 和 可 更 新 的 。 特 定 的 含义 是 它 只 支持 特定 领域 的 商务 分 析 ; 可 更 新 的 
含义 是 用 户 可 以 更 新 数据 ， 甚 至 可 以 创建 新 数据 (新 表 ) 。 
建立 数据 集 市 有 三 种 方法 : 
s 直接 从 数据 仓库 中 提取 数据 一 一 在 整个 决策 支持 工作 量 上 采用 “分 而 治之 ”的 方法 ， 以 达 
到 更 好 的 性 能 和 可 缩放 性 。 提 取出 来 的 数据 被 载 人 到 数据 库 中 ， 数 据 库 的 物理 模式 类 似 于 数 
据 仓 库 的 某 个 合适 的 子 集 。 不 过 根据 数据 集 市 的 “特定 的 ”这 一 性 质 ， 可 以 进行 简化 。 

e 尽管 采用 数据 仓库 是 为 了 提供 “单一 的 控制 点 " ， 还 是 可 以 建立 独立 的 数据 集 市 〈( 即 不 从 
数据 仓库 中 提取 数据 ) 。 当 出 于 某 些 原因 (金融 上 的 、 操 作 上 的 或 政治 上 的 原因 ， 或 者 数 
据 仓库 还 没有 建立 一 一 参考 下 一 条 ) 无 法 访问 数据 仓库 时 ， 可 以 采用 这 种 方法 。 

s 有 时 采用 “首先 建立 数据 集 市 ”的 方法 ， 此 时 必须 建立 数据 集 市 ， 而 整个 数据 仓库 则 是 

作为 对 不 同 数据 集 市 的 合并 。 

后 两 种 方法 都 可 能 导致 语义 不 匹配 的 问题 。 独 立 的 数据 集 市 很 容易 出 现 这 种 问题 ， 由 于 数据 
库 的 设计 是 彼此 独立 的 ， 所 以 无 法 检查 语义 的 匹配 。 为 了 避免 无 法 将 数据 集 市 合并 到 数据 仓库 
中 ,要 求 (a) 首先 建立 单一 的 数据 仓库 逻辑 模型 ，(b) 从 数据 仓库 模式 中 导出 各 个 数据 集 市 的 
模式 〈 当然 可 以 扩充 数据 仓库 模式 ， 将 新 数据 集 市 中 的 主题 内 容 包 含 进来 ) 。 
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关于 数据 集 市 的 设计 : 设计 决策 支持 数据 库 时 的 一 项 重要 决定 是 数据 库 的 粒度 。 粒 度 是 数据 
聚集 并 保存 在 数据 库 中 的 最 低层 次 。 现 在 的 大 多 数 决 策 支持 应 用 迟早 会 访问 细节 数据 ， 这 在 数据 
仓库 中 很 容易 做 到 ， 而 在 数据 集 市 中 则 比较 困难 。 如 果 不 是 经 常 访问 细节 数据 ， 那 么 从 数据 仓库 
中 提取 细节 数据 并 存储 到 数据 集 市 就 是 低 效 率 的 工作 。 另 外 也 很 难 决定 实际 所 需 的 最 低 聚 集 层 
次 。 这 时 可 以 在 数据 集 市 中 只 保存 聚集 数据 ， 而 当 需 要 访问 细节 数据 时 从 数据 仓库 中 提取 。 同 时 
不 会 对 数据 完全 聚集 ， 因 为 那样 会 产生 大 量 的 汇总 数据 ， 在 22. 6 节 中 将 详细 讨论 这 个 问题 。 

进一步 的 观点 : 因为 数据 集 市 用 户 常常 采用 特定 的 分 析 工 具 ， 数 据 集 市 的 物理 设计 一 般 要 符 
合 特定 工具 的 需要 (参见 22.6 节 中 “ROLAP 与 MOLAP” 的 探讨 )。 这 时 一 般 采 用 “多 维 模 式 ” 
(下 面 将 会 讨论 到 ) ， 它 无 法 遵循 优良 的 关系 设计 规范 。 

3. 多 维 模式 

现在 假设 我 们 希望 收集 商业 交易 的 历史 数据 用 于 分 析 。 正 如 22.1 节 中 提 到 的 ， 早 期 的 决策 
支持 系统 -一 般 将 历史 数据 保存 在 一 个 简单 文件 中 ， 通 过 顺序 扫描 来 访问 数据 。 当 数据 量 增长 时 ， 
人 们 就 希望 能 从 不 同 的 角度 来 直接 访问 数据 文件 。 例 如 ， 检 索 出 涉及 某 个 产品 的 所 有 商业 交易 ， 
在 特定 时 期 的 所 有 商业 交易 ， 或 者 与 某 位 顾客 有 关 的 所 有 商业 交易 。 

要 支持 这 种 功能 ， 可 以 采用 “多 重 目录 ”"。 数据 库 。 在 上 面 的 例子 中 ， 数据库 中 有 一 个 很 大 
的 中 心 数据 文件 (包含 了 商业 交易 数据 ) ， 还 有 三 个 独立 的 “目录 ”文件 一 一 产品 、 时 期 和 顾 
客 。 目 录 文 件 中 包含 了 指向 数据 文件 中 的 记录 的 索引 ， 但 是 (a) 可 以 由 用 户 来 设置 条 目 〈“ 目 
录 维 护 ”) ; (b) 其 中 可 以 包含 附加 信息 (例如 顾客 的 地 址 )， 从 而 可 以 从 数据 文件 中 删除 这 些 
附加 信息 。 注 意 目录 文件 一 般 比 数据 文件 要 小 得 多 。 

这 种 组 织 方式 比 原来 的 设计 (只 有 一 个 数据 文件 ) 要 有 效 得 多 ,减少 了 空间 和 LO 开销 。 
我 们 特别 发 现 中 心 数据 文件 中 的 产品 、 时 期 和 顾客 信息 缩减 了 ， 现 在 只 包含 相应 的 标识 符 。 

关系 数据 库 中 对 这 种 方法 的 模拟 ， 是 将 数据 文件 和 目录 文件 变 成 表 (相应 文件 的 映像 ) ， 
目录 文件 中 的 指针 变 成 了 目录 文件 映像 表 中 的 主 码 ， 数 据 文件 中 的 标识 符 则 变 成 了 数据 文件 
映像 表 中 的 外 码 。 这 些 主 码 和 外 码 一 般 都 作 了 索引 。 数 据 文件 映像 称 为 事实 表 ， 目 录 文 件 映 
像 称 为 维 表 。 根 据 实 体 / 关 系 图 中 的 形状 ， 将 整个 设 
计 称 为 多 维 模式 或 星 型 模式 (事实 表 被 多 个 维 表 环 SP| st | pt | 
绕 ， 并 与 它们 相连 ) 。 注 意 : 术语 “ 维 ” 的 起 源 参 见 S1 | 81 
第 22.6 节 。 

再 次 以 供应 商 - 零件 数据 库 为 例 ， 现 在 希望 列 
出 特定 时 期 内 的 发 货 。 时 期 用 时 期 标识 符 (TI#) 来 
标识 ， 引 人 表 TI 来 将 这 些 标 识 符 与 时 期 相对 应 。 修 
,改过 的 发 货 表 SP 和 时 期 表 全 如 图 22-3 所 示 ”。 在 
星 型 模式 中 ， 表 SP 是 事实 表 ， 表 TI 是 维 表 (供应 
商 表 S 和 零件 表 P 也 是 维 表 一 参见 图 22-4)。 注 意 : 
在 第 23 章 中 会 详细 讨论 如 何 处 理 时 期 数据 。 

查询 星 型 模式 数据 库 时 一 般 会 在 维 表 中 找到 相 
应 的 外 码 组 合 ， 然 后 通过 这 些 外 码 来 访问 事实 表 。 图 22-3 事实 表 (SP) 和 维 表 (TI) 的 实例 
假设 在 单个 查询 中 要 同时 访问 维 表 和 事实 表 ， 最 好 
的 方法 是 使 用 星 型 连接 .“ 星 型 连接 ”是 一 种 特定 的 连接 技术 ， 它 与 常规 的 笛 卡 尔 连 接 不 同 。 在 
第 18 章 中 提 到 查询 优化 器 一 般 会 尽量 避免 产生 笛 卡 尔 积 ; 现在 则 是 首先 生成 维 表 的 币 卡 尔 积 ， 
然后 再 与 事实 表 连 接 (基于 索引 的 查找 )， 这 样 做 很 有 效 。 许 多 商业 优化 器 已 经 支持 星 型 连接 。 

那么 星 型 模式 和 关系 设计 之 间 有 什么 不 同 昵 ? 实际 上 ， 如 上 所 述 的 简单 星 型 模式 类 似 〈 甚 








他 ”和 现在 数据 库 系统 表 的 意义 无 关 。 
@ 表 二 中 的 FROM 和 TO 属性 列 包含 了 一 些 时间 截 类 型 的 数据 。 为 了 简化 ， 在 图 中 我 们 用 符号 来 表示 而 不 是 用 实 
际 的 时 间 截 值 。 
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至 等 同 ) 于 良好 的 关系 设计 。 和 遗憾 的 是 ， 在 星 型 模式 设计 方法 中 经 常会 出 现 如 下 问题 : 

1) 首先 是 特定 性 错误 (基于 直觉 而 非 S[S# [SNAME |STATUS | CITY | TI 
基于 原则 ) 。 由 于 不 遵循 原则 ， 当 增加 新 数 | 下 
据 类 型 或 新 的 依赖 时 难以 修改 模式 。 实 际 
上 ， 很 多 星 型 模式 都 是 对 以 前 设计 的 修改 ， 
而 以 前 的 设计 又 大 多 是 试验 性 的 ， 包 含 错 误 p [BETPNANME [COLOR] WEIGHT|CITY)] 
的 设计 。 








2) 星 型 模式 是 物理 模式 ， 而 不 是 逻辑 模 图 22-4 ”供应 商 - 零件 数据 库 星 型 
式 ， 在 星 型 模式 设计 方法 中 不 存在 逻辑 设计 模式 (包括 时 期 ) 
的 概念 。 


3) 星 型 模式 设计 方法 不 一 定 会 产生 合理 的 物理 设计 ( 即 它 不 一 定 会 完全 保留 关系 型 净 辑 设 
计 中 的 所 有 信息 ) ， 模 式 越 复杂 ， 这 个 缺点 就 越 明显 。 

4) 因为 缺少 设计 原则 ， 设 计 人 员 常 常会 将 多 个 不 同类 型 的 事实 存放 到 同一 个 事实 表 中 ， 因 
此 事实 表 中 的 行 和 列 就 会 产生 语义 分 歧 。 而 且 有 的 列 还 可 能 只 保存 某 些 类 型 的 事实 数据 ， 这 样 此 
列 就 必须 允许 空 值 存在 。 当 引入 越 来 越 多 的 事实 类 型 时 ， 事 实 表 就 变 得 难以 维护 和 理解 ， 访 问 效 
率 也 逐渐 下 降 。 例 如 ， 我 们 可 能 希望 在 发 货 表 中 不 仅 能 跟踪 零件 的 发 货 信息 ， 而 且 也 能 跟踪 零件 
的 购买 信息 ， 于 是 就 要 增加 一 个 “标志 ” 列 来 显示 哪些 行 是 关于 购买 零件 ， 哪 些 行 是 关于 零件 
的 发 货 。 正 确 的 设计 应 该 是 将 事实 表 分 离 成 两 个 ， 每 个 表 对 应 不 同 的 类 型 。 

5) 同样 因为 缺少 设计 原则 ， 维 表 也 会 变 得 很 不 统一 。 当 事实 表 中 包含 了 不 同 聚 集 层 次 的 数 
据 时 ， 很 容易 出 现 这 种 错误 。 例 如 ， 我 们 可 能 会 〈 错 误 地 ) 在 发 货 表 中 增加 一 些 行 ， 用 来 显示 
每 天 、 每 月 、 每 年 甚至 所 有 日 期 的 零件 总 数 ， 这 样 做 将 导致 时 期 标识 符 (TI#) 和 表 SP 中 的 数 
量 列 (QTY) 出 现 语义 分 歧 。 假 设 用 YEAR、MONTH、DAY 等 列 的 组 合 来 代替 维 表 TI 中 的 
FROM 列 和 TO 列 ， 那 么 这 些 YEAR、MONTH、DAY 列 就 必须 允许 空 值 存 在 。 而 且 还 可 能 要 增 
加 一 个 标志 列 ， 以 标明 相应 的 时 期 间隔 类 型 。 

6) 维 表 一 般 不 是 完全 规范 化 的 ? 。 为 了 避免 表 连 接 的 开销 ， 设 计 人 员 常 常会 把 截然 不 同 的 
信息 都 保存 到 同一 个 维 表 中 。 最 极端 的 情况 是 将 所 有 可 能 访问 到 的 信息 都 存放 到 同一 个 维 表 中 ， 
这 种 极端 的 、 非 关系 型 的 无 原则 性 几乎 肯定 会 导致 失控 元 余 的 出 现 。 

雪花 模式 是 由 一 组 星 型 模式 组 成 ， 其 中 的 维 表 是 规范 化 的 ， 名 称 的 由 来 源 于 其 实体 /关系 图 
的 外 观 。 星 座 模式 和 大 风 雪 (或 暴风 雪 ) 模式 则 是 进一步 的 推广 。 


22.6 联机 分 析 处 理 


术语 OLAP (online analytical processing) 出 自 1993 年 Arbor 软件 公司 的 白皮书 [22. 11]， 
不 过 这 个 概念 (以 及 “数据 仓库 ”的 概念 ) 早 就 出 现 了 。 可 以 把 OLAP 定义 为 “关于 数据 的 创 
建 、 管 理 、 分 析 和 报表 生成 的 交互 处 理 ” 使 得 数据 好 像 是 存储 于 一 个 “多 维 数组 ” 之 中 。 不 过 
我 们 首先 用 传统 的 SQL 表 来 解释 概念 ， 然 后 再 探讨 其 多 维 表达 方法 。 

在 分 析 处 理 中 总 会 要 求 进行 一 些 不 同形 式 的 聚集 操作 (按照 不 同 的 分 组 方法 ) ， 常见 的 基本 
问题 是 可 能 的 分 组 会 变 得 非常 庞大 ， 而 用 户 会 用 到 其 中 大 多 数 或 全 部 的 分 组 。 现 在 的 SQL 标准 
支持 这 种 聚集 操作 ， 但 是 每 个 查询 只 能 产生 一 个 结果 表 至 少 优 于 SQL: 1999 一 一 表 中 的 所 有 
的 行 形式 相同 ， 表 达 相同 的 语义 ”， 那么 为 了 得 到 nn 个 不 同 的 分 组 信息 就 要 求 分 别 进行 n 次 不 间 
的 查询 ， 产 生 个 不 同 的 结果 表 。 例 如 ， 在 供应 商 -零件 数据 库 中 考虑 以 下 查询 : 








”这 儿 可 以 参考 一 本 关于 数据 仓库 【22. 24] 的 书 上 的 建议 :“ [反对 ] 规范 化 …… 在 多 维 数据 库 中 对 表 进 行规 范 
化 只 是 为 了 节省 磁盘 空间 ， 却 增加 了 时 间 开 销 …… 维 表 不 应 被 规范 化 ， 否 则 会 影响 可 用 性 。 

全 ”除非 结果 表 包 含有 空 值 ( 兄 第 19 章 19. 3 节 中 的 “再 一 次 使 用 谓词 ") 。 实 际 上 ， 这 节 描 述 的 SQL: 1999 概念 高 
度 “ 利 用 了 ”SQL 一 些 废弃 的 特征 〈?) ;它们 利用 了 空 值 的 不 同 表现 形式 可 以 表达 不 同 的 意思 这 特点 ， 因 此 
人 允许 用 许多 不 同 的 谓词 来 生成 单一 的 表 (正如 我 们 将 看 到 的 ) 。 
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1) 得 到 发 货 的 总 数 。 

2) 得 到 每 个 供应 商 的 发 货 总 数 。 

3) 得 到 每 个 零件 的 发 货 总 数 。 

4) 得 到 每 个 供应 商 的 每 个 零件 的 发 货 总 数 。 

( 当然 ， 对 于 给 定 的 供 货 商 和 零件 ， 总 数目 恰好 是 那个 供 货 商 和 零件 的 实际 数目 。 本 例 中 如 
果 使 用 供 货 商 -零件 -工程 数据 库 可 能 会 更 真实 ， 不 过 这 里 我 们 还 是 采用 了 更 简单 的 数据 库 。) 

假设 只 有 两 个 零件 Pl 和 P2 ， 发 货 表 如 下 所 示 : 

下 面 给 出 以 上 四 个 查询 对 应 的 SQL 语句 和 查询 结果 。 注 意 ，SQL: 1999 允许 (而 SQL: 
1992 则 不 允许 ) : (a) GROUP BY 的 操作 数 要 求 用 圆 括号 括 起 来 ; (b) 没有 任何 操作 数 的 
GROUP BY 子 句 〈 后 一 种 情况 等 价 于 完全 省 略 了 GROUP BY 子 句 ) 。 

1， SELECT SCQTY ) AS TOTQTY 


FROM 
GROUP BY () ; 


。SELECT S#, 
SUM(QTY) AS TOTQTY 
FROM SP 
GROUP BY (S#) ; 


> 





3. SELECT P#, 

SUM(QTY) AS TOTOTY 
FROM SP 

GROUP BY (P#) ; 


BEd 


Pl 600 
P2 1000 


4. SELECT S#, P#, 
SUM(QTY) AS TOTQTY 
FROM SP 
GROUP BY (S#,P#) ， 





这 种 方法 的 缺点 非常 明显 : 用 户 感觉 分 别 阐述 这 些 类 似 的 查询 是 十 分 乏 昧 的 ， 而 在 相同 的 数 
据 上 一 次 又 一 次 地 执行 这 些 查询 显然 需要 过 多 的 执行 时 间 。 于 是 人 们 希望 找到 一 种 方法 能 够 
(a) 在 一 次 查询 中 进行 不 同 层次 的 率 集 ; (b) 更 有 效 地 执行 这 些 聚集 操作 。 出 于 这 种 考虑 ， 在 
GROUP BY 子 句 中 引入 了 GROUPING SETS 、ROLLUP 和 CUBE 选项 。 注 意 : 这 些 选 项 几 年 前 就 
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已 经 被 一 些 商业 产品 所 支持 。 它 们 在 1999 年 被 加 入 到 SQL 标准 中 。 
GROUPING SET 选项 允许 用 户 精确 指定 进行 哪些 特定 分 组 操作 。 例 如 ， 下 面 的 SQL 语句 实 
现 了 第 2 个 和 第 3 个 查询 : 











GROUP BY 子 句 会 要 求 系统 有 效 地 执行 两 个 查询 ， 一 个 按 S# 分 组 ， 另 一 个 按 P# 分 组 。 注 
意 : 内 层 括号 并 不 是 必需 的 〈 因 为 每 个 “分 组 集合 ”只 涉及 单个 列 ) ， 使 用 括号 只 是 为 了 增加 可 
读 性 


我 们 并 不 反对 将 多 个 分 离 的 查询 捆绑 到 一 条 语句 之 中 (但 是 我 们 希望 用 一 种 更 通用 的 方法 ， 
比如 系统 的 、 正 交 的 方法 来 解决 这 个 问题 ) ， 但 是 SQL 还 是 把 这 些 逻 辑 上 分 离 的 查询 的 结果 都 放 
到 一 个 结果 表 中 ! 在 本 例 中 的 结果 表 如 下 所 示 : 

SELECT S#, P#, SUM ( QTY ) AS TOTQOTY 


FROM SP 
GROUP BY GROUPING SETS ((S# )，( P# ) ) :; 


以 上 的 输出 结果 可 被 视 为 一 个 表 (至 少 是 SQL 风格 的 表 ) ， 却 很 难说 它 是 一 个 关系 。 因 为 供 
应 商行 〈P# 列 为 null) 和 零件 行 (S# 列 为 null) 的 语义 不 同 ， 而 TOTQTY 的 含义 要 根据 它 是 出 
现在 供应 商行 还 是 零件 行 来 判定 。 这 个 “关系 ”的 断言 又 该 是 什么 呢 ? (实际 上 ， 这 个 例子 中 的 
结果 表 可 以 认为 是 查询 2 和 3 的 结果 的 一 种 “外 并 ”一 比较 奇怪 的 一 种 。 至 少 从 它 的 奇怪 的 形 
式 上 可 以 看 出 ， 它 与 第 19 章 中 的 外 并 操作 符 不 同 ， 这 里 它 并 不 是 一 个 恰当 的 关系 操作 符 。) 

我 们 还 注意 到 ， 结 果 中 的 null 构成 了 另外 一 种 “空缺 信息 ”， 它 们 既 不 表示 “未 知 值 ” 也 不 
表示 “无 适用 值 ”， 很 难 弄 清楚 它们 的 含义 。 注 意 : SQL 中 至 少 提供 了 一 种 方法 来 将 这 些 新 的 
null 值 与 其 他 null 值 区 分 开 来 ， 但 是 其 技术 细节 过 于 元 长 并 强迫 用 户 去 逐 行 辨析 。 此 处 我 们 忽略 
这 些 细节 ， 大 家 可 以 参考 下 面 的 例子 (说 明了 前 面 GROUPING SETS 例子 在 实际 中 的 特征 ) : 

SELECT CASE GROUPING ( S# ) 


WHEN 1 THEN “2?3? 
ELSE S# 


AS S#, 

CASE GROUPING ( P# ) 
WHEN 1 THEN ' 1 1 
ELSE P# 


AS P#, 
SUM ( QTY ) AS TOTeTY 


FROM SP 
GROUP BY GROUPING SETS ( ( S# ), ( P# ) ); 


将 结果 表 中 的 空 值 用 另 一 种 形式 表示 ，S# 列 中 的 空 值 用 两 个 问号 代替 ，P# 列 中 的 空 值 用 两 
个 感叹 号 代替 。 因 此 有 : 





再 次 回 到 GROUP BY 子 句 ， 另 外 两 个 GROUP BY 选项 ROLLUP 和 CUBE 都 可 以 视 为 由 一 些 
GROUPING SETS 组 合 而 成 。 首 先 来 看 ROLLUP ， 考 虑 下 面 的 查询 : 
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SELECT S#, P#, SUM ( QTY ) AS TOTQTY 


FROM SP 

GROUP BY ROLLUP ( S#, P# ) ? 

上 面 的 GROUP BY 子 句 等 同 于 

GROUP BY GROUPING SETS ( ( S#, P# )，( S# )，( ) ) 

换 名 话说， 上面 的 SQL 语句 实现 了 第 4 个 、 第 2 个 和 第 1 个 查询 。 查 询 结果 如 下 所 示 : 








TOTQTY 








术语 上 卷 (ROLLUP) (在 本 例 中 ) 指 的 是 对 每 个 供应 商 进行 数量 上 卷 〈 即 “ 沿 着 供应 商 维 


上 卷 ”一 一 参见 下 面 的 “多 维 数据 库 ” 小 节 ) 。 一 般 说 来 ，GROUP BY ROLLUP (4，B，.…， 





Z),“ 沿 着 A 维 上 卷 ” 指 的 是 “ 按 下 列 组 合 进行 分 组 ”: 
( A, B, ..., 2) 
( A, B, ) 
(A, B ) 
( aA’) 
( ) 


注意 ， 一 般 来 说 ， 存 在 许多 分 离 的 “ 沿 着 A 维 上 卷 ” (根据 ROLLUP 中 用 逗号 分 开 的 列 来 


确定 ) 。 另 外 要 注意 GROUP BY ROLLUP (A4, 8) 和 GROUP BY ROLLUP (8B， A) 含义 不 








即 GROUP BY ROLLUP (4，B) 中 的 A 和 8B 不 具有 对 称 性 。 
现在 来 看 一 下 CUBE， 考 虑 以 下 查询 : 
SELECT S#, P#, SUM ( QTY ) AS TOTOTY 


FROM SP 
GROUP BY CUBE ( S#, P# )》 ; 


其 中 的 GROUP BY 子 句 在 逻辑 上 等 价 于 下 面 的 子 句 : 


GROUP BY GROUPING SETS ( ( S#, P# ), ( S# ), ( P# ), ( )) 


换 名 话说， 上面 的 SQL 语句 同时 执行 了 前 面 的 第 4、3、2、1 个 查询 。 查 询 结果 如 下 : 





术语 CUBE 来 源 于 OLAP 中 的 事实 ; 可 以 从 多 维 数组 或 超 立方 体 中 的 存储 单元 中 找到 数据 的 
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值 。 在 本 例 中 ，(a) 数据 的 值 就 是 发 货 数量 ; (b) “立方 体 ” 只 有 两 维 ， 供 应 商 维和 零件 维 
(所 以 , 这 个 “立方 体 ” 其 实 是 平面 的 !); (c) 两 维 的 尺寸 不 同 (因此 这 个 “立方 体 ” 不 是 正 
方形 而 是 长 方形 ) 。 总 之 ，GROUP BY CUBE (4，B，…，Z) 等 价 于 “ 按 集合 14，B，.…，Z1 
的 所 有 可 能 的 子 集 分 组 ”。 

在 任 一 个 GROUP BY 子 句 中 可 以 包括 多 个 GROUPING SETS 、ROLLUP 和 CUBE。 

1. 交叉 表格 

OLAP 产品 中 常常 不 是 用 SQL 风格 的 表 ， 而 是 用 交叉 表格 (简称 为 “crosstab”) 来 显示 结 
果 。 再 回头 看 第 4 个 查询 (得 到 每 个 供应 商 的 每 个 零件 的 发 货 总 数 ) ， 下 面 的 交叉 表格 显示 了 查 
询 结果 。 注 意 到 供应 商 S3 和 S4 在 零件 P1 上 的 发 货 量 为 0， 而 在 SQL 中 则 为 null (参见 第 19 
章 ) 。 实 际 上 ， 使 用 第 4 个 查询 对 应 的 SQL 语句 生成 的 结果 表 中 ， 根 本 就 没有 与 (S3，P1 ) 、 
(S4，P1) 对 应 的 行 ! 一 因此 使 用 交叉 表格 显然 比 原来 的 结果 表 更 有 价值 。 


| 


使 用 交叉 表格 可 以 更 紧凑 更 简易 地 表示 第 4 个 查询 的 结果 。 而 且 ， 它 看 起 来 也 的 确 像 一 个 关 
系 表 。 不 过 ， 这 个 “ 表 ” 中 的 列 数 是 由 实际 数据 决定 的 。 在 本 例 中 ， 每 个 列 对 应 一 种 零件 〈 因 
此 交叉 表格 的 结构 和 每 行 的 含义 都 是 由 实际 数据 决定 ) 。 交 叉 表格 实际 上 并 不 是 一 个 关系 而 是 一 
份 报表 ， 格 式 为 简单 数组 的 报表 〈 关 系 中 拥有 可 从 关系 断言 中 推断 出 来 的 断言 ; 但 是 ， 如 果 说 
交叉 表格 中 也 有 断言 的 话 ， 那 么 这 些 断 言 无 法 从 关系 断言 中 推断 出 来 ， 而 是 依赖 于 实际 数据 
的 值 ) 。 

在 供应 商 - 零件 实例 中 ， 如 上 所 示 的 交叉 表格 一 般 是 二 维 的 。 各 个 维 一 般 被 视 为 自 变量 ， 表 
格 中 的 单元 则 与 相关 变量 对 应 。 进 一 步 的 说 明 请 参见 下 面 的 “多 维 数据 库 ” 小 节 。 

下 面 的 交叉 表格 显示 了 上 面 的 CUBE 查询 结果 : 














300 200 
300 400 


0 200 
0 200 


orar | 00 | 1000 | i600 





最 右边 的 列 中 数值 是 各 行 的 和 (〈 即 各 个 供应 商 的 总 发 货 量 ) ， 底 部 的 行 中 数值 是 各 列 的 和 
( 即 各 个 零件 的 总 发 货 量 ) ， 右 下 角 的 单元 中 数值 是 发 货 量 总 和 。 

2. 多 维 数据 库 

到 目前 为 止 ， 我 们 一 直 假设 OLAP 数据 存储 在 传统 的 SQL 数据 库 中 〈 尽 管 曾 多 次 提 及 “多 
维 数据 库 ”) 。 实 际 上 ， 这 是 ROLAP (“关系 型 OLAP”)。 但 是 , 很 多 人 认为 MOLAP (“多 维 
OLAP”) 是 更 好 的 解决 方案 ， 下 面 的 小 节 就 对 MOLAP 进行 探讨 。 

MOLAP 涉及 到 多 维 数据 库 ， 从 概念 上 讲 ， 其 中 的 数据 存储 在 多 维 数 组 的 单元 中 〈 注 意 : 
MOLAP 的 物理 存储 方式 与 其 逻辑 组 织 是 十 分 相似 的 ) 。 相 应 的 DBMS 平台 称 为 多 维 DBMS。 例 
如 ， 可 以 把 数据 视 为 三 维 数组 ， 分 别 对 应 于 产品 、 顾 客 和 时 期 。 各 单元 中 的 值 表示 在 相应 时 期 内 
向 相应 顾客 出 售 的 相应 产品 的 数量 。 前 面 的 交叉 表格 也 可 以 被 视 为 这 样 的 数组 。 

当 已 经 深入 了 解数 据 和 所 有 的 关系 时 ， 就 可 以 把 涉及 到 的 “关系 变量 ” (不 是 程序 语言 中 的 
变量 ) 分 为 自 变量 或 应 变量 。 在 前 面 的 例子 中 ， 产 品 、 顾 客 和 时 期 是 自 变量 ， 而 发 货 量 则 是 唯 
一 的 应 变量 。 一 般 说 来 ， 自 变量 合 起 来 决定 了 应 变量 的 值 (在 关系 数据 库 中 ， 候 选 码 就 是 这 样 
的 一 些 列 ， 它 们 的 值 决定 了 其 他 列 的 值 ) 。 自 变量 构成 了 数组 的 各 个 维 ， 并 构成 了 数组 的 寻 址 模 
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式 ”， 应 变量 的 值 一 一 代表 实际 的 数据 一 一 则 存储 在 数组 单元 中 。 注 意 ; 自 变量 ( 维 变量 ) 的 
值 与 应 变量 之 间 的 区 别 类 似 于 地 点 和 内 容 的 区 别 。 

不 过 前 面 对 多 维 数据 库 的 描述 是 过 于 简单 的 ， 因 为 我 们 并 不 是 很 了 解 大 多 数 数据 。 因 此 需要 
首先 分 析 数 据 : 从 而 进一步 了 解数 据 。 由 于 对 数据 缺少 了 解 ， 就 无 法 判断 哪些 是 自 变量 ， 哪 些 是 
应 变量 。 一 般 根据 经 验 ( 即 假设 ) 来 选取 自 变 量 ， 然 后 测试 生成 的 数组 是 否 合适 (参见 第 22.7 
节 )。 这 种 方法 需要 多 次 看 代 、 多 次 试验 ， 会 出 现 不 少 错误 。 因 此 系统 中 应 该 允许 交换 自 变 量 和 
应 变量 ， 这 种 操作 称 为 绕 轴 转动 (pivoting) 。 其 他 操作 包括 数组 转 置 和 维 的 重新 排序 ， 同 时 允许 
增加 维 。 

从 以 上 的 描述 中 可 以 得 知 ， 数 组 单元 常常 会 是 空 的 ( 维 数 越 多 ， 这 种 情况 出 现 的 就 越 多 )， 
也 就 是 所 谓 稀 玖 数组 。 例 如 ， 假 设 在 时 期 中 没有 向 顾客 c 出 售 产品 p， 那 么 单元 [c, p, 1!] 就 
是 空 的 (或 者 为 零 )。 多 维 DBMS 支持 对 稀 朴 数组 的 高 效 存储 (通过 压缩 技术 )”。 另 外 ， 空 单 
元 对 应 “遗失 信息 ”， 系 统 应 该 能 处 理 这 些 单元 一 一 可 惜 经 常 是 按照 与 SQL 类 似 的 方式 来 处 理 。 
空 单元 可 能 意味 着 信息 是 未 知 的 ， 或 者 尚未 获取 数值 ， 或 者 数值 是 不 合适 的 ， 或 者 其 他 情况 
(参见 第 19 章 )。 

自 变量 中 常常 存在 分 类 层次 ， 它 决定 了 应 变量 可 以 聚集 的 方式 。 例 如 ， 存 在 如 下 的 时 间 层 
次 : 从 秒 到 分 钟 、 小 时 、 日 、 星 期 、 月 ， 一 直到 年 。 还 可 能 存在 如 下 的 层次 : 从 零件 到 套件 、 组 
件 、 集 成 电路 板 ， 一 直到 产品 。 相 同 的 数据 常常 可 以 按照 不 同方 式 聚 集 〈 即 相同 的 自 变 量 可 以 
属于 不 同 的 分 类 层次 ) 。 系 统 会 支持 分 类 层次 上 的 “上 钼 ” (drill up) 和 “下 销 ” (dril down) 
操作 ， 上 钻 是 从 低层 次 到 高 层次 的 聚集 ， 下 钻 则 相反 。 此 外 还 有 很 多 对 分 类 层次 的 操作 〈 例 如 ， 
对 分 类 层次 的 再 排列 ) 。 

注意 ;“ 上 钻 ” 和 “上 卷 ” 之 间 存 在 着 细微 差别 : “上 卷 ” 是 创建 所 需 分 组 和 聚集 的 操作 ， 
“上 钻 ” 则 是 对 这 些 聚 集 的 访问 操作 。 下 面 给 出 “下 钻 ” 的 例子 : 已 知 总 的 发 货 量 ， 要 得 到 每 个 
供应 商 的 发 货 量 。 当 然 ， 必 须 存在 更 详细 的 数据 才 可 以 回答 这 个 请 求 。 

多 维 产品 中 还 会 提供 大 量 的 统计 和 数学 函数 ， 帮 助 用 户 阐 述 和 验证 自己 的 假设 。 同 时 提供 可 
视 化 工具 和 报表 生成 工具 。 不 过 现在 还 没有 多 维 查 询 语言 的 标准 ， 目 前 正在 进行 相关 的 研究 
[22.31] 。 同 时 多 维 数据 库 也 没有 类 似 规范 化 理论 的 科学 基础 。 

最 后 我 们 介绍 一 下 综合 了 ROLAP 和 MOLAP 方法 的 产品 : HOLAP (“hybrid OLAP” ) 。 目 前 
很 难说 这 三 种 方法 哪个 更 好 9 。 一 般 说 来 ， MOLAP 产品 计算 速度 快 但 支持 的 数据 容量 较 小 〈 随 
数据 量 的 增 大 效率 会 降低 ) ，ROLAP 产品 支持 更 成 熟 的 可 缩放 性 、 并 发 控制 和 管理 机 制 。 最 近 
SQL 标准 已 经 包括 许多 统计 和 分 析 函 数 ( 见 22. 8 节 ) ， 这 样 ROLAP 产品 现在 也 能 提供 一 些 相应 
的 扩展 功能 。 


22.7 数据 挖 据 


数据 挖 据 可 以 描述 为 “探测 型 的 数据 分 析 ”， 它 的 目标 是 从 数据 中 找到 感 兴趣 的 模式 ， 用 这 
些 模式 来 决定 商业 策略 或 者 发 现 不 正常 的 情况 ( 例如， 信用卡 突然 被 频繁 使 用 可 能 意味 着 被 人 
偷 了 ) 。 数 据 挖掘 工具 在 海量 数据 上 应 用 了 统计 技术 来 查找 这 些 模 式 。 注 意 ; 数据 量 一 般 是 很 虎 
大 的 。 数 据 挖 扎 数 据 库 常 常 是 特别 大 的 ， 算 法 的 可 缩放 性 就 十 分 重要 。 








他 ”数组 单元 是 通过 符号 来 寻 址 而 不 是 传统 的 数字 下 标 。 

注意 这 里 和 关系 系统 中 的 区 别 。 在 一 个 关系 系统 里 ， 如 果 “ 单 元 ”是 空 的 ， 那 么 就 不 会 出 现 相应 的 《c，P，0) 。 
多 维系 统 中 的 “ 称 朴 数组 ”( 或 “ 稀 朴 表 " ) 就 不 会 出 现 ， 因 此 也 不 需要 压缩 技术 来 处 理 。 

全 ”值得 一 提 的 是 ， 我 们 常 说 “ 表 是 平面 的 ” (也 就 是 二 维 的 ) ， 然 而 “实际 中 的 数据 是 多 维 的 "， 因 此 关系 不 足以 
作为 OLAP 的 基础 。 不 过 这 种 观点 混淆 了 表 和 关系 之 间 的 区 别 ! 我 们 在 第 6 章 中 看 到 ， 表 仅仅 是 关系 的 形象 表 
示 ， 但 并 不 是 关系 。 当 这 些 形象 表示 是 二 维 的 时 候 ， 上 述 观 点 是 正确 的 ， 然 而 关系 是 n 维 的 (不 一 定 是 二 维 ,，n 
表示 关系 的 维 数 ) ， 更 精确 的 说 ,拥有 个 属性 的 关系 中 的 每 个 元 组 代表 维 空间 中 的 一 个 点 ， 整 个 关系 代表 这 
些 点 的 集合 。 





452 需 五 部 分 高 级 专题 


图 22-5 所 示 的 销售 表 中 给 出 了 某 个 零售 商 的 售 货 交 易 信息 ”。 商 家 希望 能 在 这 些 数据 上 进 
行 购物 公分 析 (“购物 钞 ”(market basket) 指 的 是 单 次 交易 中 购买 的 所 有 产品 ) ， 从 而 发 现 诸如 
购买 鞋子 的 顾客 常常 也 会 同时 购买 福子 之 类 的 信息 。 鞋 子 和 袜子 之 间 的 相关 性 就 是 关联 规则 的 一 
个 例子 ， 可 如 下 表示 : 


FORALL tx ( Shoes ee tx 3 Socks e tx ) 


(其 中 “Shoes e tx” 是 规则 的 前 因 ，“Socks e zx” 是 规则 的 结果 ，rz 则 代表 任意 一 次 
交易 ) 。 

下 面 引入 一 些 术语 。 全 部 交易 的 集合 称 为 populiation ， 每 个 关联 规则 都 有 支持 度 和 置信 和 度 。 
支持 度 指 的 是 满足 规则 的 交易 占 全 部 交易 的 百分比 ， 置 信和 度 指 的 是 同时 满足 前 因 和 结果 的 交易 占 
满足 前 因 的 交易 的 百分比 〈 注 意 前 因 和 结果 中 各 自 可 以 包含 任意 多 项 产品 ) 。 另 外 在 本 例 中 考虑 
如 下 规则 : 


FORALL tx ( Socks ce tx 3 Tie € tx ) 


在 图 22-5 中 的 示例 数据 中 ，population 为 4， 支 
持 度 为 50% ,置信 和 度 为 66. 67% 。 

在 给 定数 据 上 进行 适当 聚集 可 以 得 到 更 普遍 的 
关联 规则 。 例 如 ， 对 顾客 分 组 可 以 验证 如 下 规则 
“如 果 某 位 顾客 购买 了 鞋子 ， 他 〈 她 ) 可 能 会 同时 
或 其 他 时 候 购买 袜子 "。 

还 可 以 定义 其 他 类 型 的 规则 。 例 如 ， 序 列 关 联 
规则 可 用 来 标识 随时 间 推 移 的 购买 模式 (“如 果 某 位 
顾客 今天 买 了 鞋子 ， 他 〈 她 ) 就 可 能 在 五 天 内 购买 
袜子 " ) 。 分 类 规则 可 用 来 辅助 判断 是 否 批准 一 项 信 
用 应 用 (“如 果 某 位 顾客 的 年 收入 超过 75 000 美元 ， 图 22-5 销售 表 
他 (她 ) 就 可 能 比较 值得 信赖 ") ， 等 等 。 类 似 于 关 
联 规则 ， 序 列 关 联 和 分 类 规则 同样 具有 相应 的 支持 度 和 置信 和 度 。 

数据 挖掘 是 个 很 大 的 课题 [22. 2] ， 在 此 无 法 一 一 详 述 。 最 后 简单 介绍 如 何在 供应 商 - 零件 
数据 库 中 进行 数据 挖 气 。 首 先 (在 不 涉及 其 他 信息 的 情况 下 ) 可 以 使 用 神经 归纳 《neural induc- 
tion》 按 经 营 项 目 (如 刹车 或 发 动机 零件 ) 对 供应 商 分 类 ， 使 用 价值 预测 来 预测 出 每 个 供应 商 最 
可 能 供应 什么 产品 。 然 后 使 用 人 口 统计 的 化 类 把 供应 商 和 所 在 地 区 、 运 输 地 区 联系 起 来 。 这 时 可 
以 采用 关联 发 现 技术 来 找 出 每 次 运输 中 哪些 零件 会 被 同时 装运 ， 采 用 序列 关联 发 现 技术 来 找 出 当 
装运 过 发 动机 零件 后 一 般 会 装运 刹车 零件 ， 采 用 相似 时 间 序 列 发 现 技术 来 找 出 哪些 零件 的 装运 量 
随 季节 而 变化 〈 比如 哪些 变化 发 生 在 秋季 ， 而 哪些 发 生 在 春季 ) 。 


22.8 SQL 的 支持 


OLAP 的 一 些 功能 ， 基 本 上 是 22.7 节 中 描述 的 GROUPING SET、ROLLUP 和 CUBE 操作 
(作为 GROUP BY 的 扩充 ) 最 先 收录 到 SQL: 1999 标准 中 ， 第 二 年 又 加 入 了 一 些 新 功能 对 其 完 
善 [22. 21] 。 完 善 的 详细 内 容 超出 了 本 书 的 范围 ， 我 们 只 简单 的 列 出 下 面 一 些 特征 总 结 : 

a 新 的 数学 函数 (比如 自然 对 数 、 指 数 、 寡 、 平 方 根 、 下 限 、 上 限 函 数 ) 

m 新 的 聚集 操作 符 〈 比如 方差 、 标 准 差 ) 

a 分 类 函数 《比如 通过 权重 对 列表 中 的 元 素 分 类 ) 

em 累积 函数 以 及 其 他 种 类 的 “动态 平均 ”函数 (在 SQL 的 表达 式 SELECT - FROM - 














@ 注意 ，(a) 码 是 |TX#，PRODUCT} ;， (b) 表 满足 函数 依赖 TX# - > CUST#， 和 TX#- > TIMESTAMP ( 非 BC- 
NF) ; (c) 如 果 表 包含 列 PRODUCT (而 且 TX# 是 码 ) ， 则 表 属 于 BCNF， 这 样 可 能 更 适合 与 此 例 类 似 的 情况 
(但 可 能 不 适合 其 他 情况 )。 
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WHERE - GROUP BY - HAVING 表达 式 中 加 人 一 个 新 的 WINDOW 子 句 ) 
a 应 用 到 成 对 出 现 的 列 上 的 分 布 、 逆 分 布 、 相 关 以 及 其 他 统计 函数 


22.9 小 结 


本 章 介 绍 了 数据 库 技术 在 决策 支持 中 的 应 用 。 其 基本 思想 是 从 操作 型 数据 中 收集 信息 ， 然 后 
将 这 些 信 息 重 新 格式 化 ， 以 帮助 管理 部 门 了 解 和 修改 企业 行为 。 

首先 指出 了 为 什么 决策 支持 系统 要 和 操作 型 系统 分 离 ， 主 要 因为 决策 支持 数据 库 大 多 是 只 读 
的 。 决 策 支 持 数 据 库 会 变 得 很 大 ， 索 引 的 开销 繁重 ， 同 时 涉及 大 量 的 受 控 宛 余 (特别 是 在 复制 
和 聚集 预计 算 中 )， 码 中 一 般 有 时 间 列 ， 查 询 也 很 复杂 。 出 于 这 些 考虑 ， 人 们 会 在 设计 时 特别 强 
调 性 能 问题 ， 性 能 问题 值得 关注 ， 但 这 并 不 是 采用 不 好 的 设计 的 理由 。 实 际 上 ， 问 题 在 于 决策 支 
持 系 统一 般 没 有 明确 地 区 分 逻辑 设计 和 物理 设计 。 

其 次 探讨 了 在 为 决策 支持 进行 操作 型 数据 准备 时 所 涉及 的 步骤 ,包括 提取 、 清 洗 、 转 换 、 合 
并 、 载 入 和 刷新 ， 还 提 及 了 操作 型 数据 存储 ， 可 把 操作 型 数据 存储 作为 数据 准备 过 程 中 的 过 渡 阶 
段 ， 也 可 以 用 来 在 现 有 数据 上 提供 决策 支持 。 

再 次 就 是 数据 仓库 和 数据 集 市 。 数 据 集 市 可 以 视 为 一 种 特殊 的 数据 仓库 。 我 们 解释 了 星 型 模 
式 ， 其 中 包括 一 个 大 的 中 心事 实 表 和 多 个 小 的 维 表 。 在 简化 时 ， 星 型 模式 和 规范 化 的 关系 模式 没 
有 什么 区 别 ， 而 实际 上 星 型 模式 与 传统 的 设计 理论 存在 许多 不 同 ， 主 要 是 出 于 性 能 上 的 考虑 
(还 是 同样 的 问题 ， 星 型 模式 在 本 质 上 更 像 物理 模式 而 不 是 逻辑 模式 ) 。 另 外 还 提 到 了 连接 的 实 
现 策略 〈 如 星 型 连接 ) 以 及 雪花 模式 。 

接 下 来 是 OLAP。 我 们 讨论 了 SQL GROUPING SETS、ROLLUP 和 CUBE (这 些 都 是 
GROUP BY 子 句 的 选项 ， 在 单个 SQL 查询 中 实现 多 个 不 同 的 聚集 操作 ) 。SQL 中 把 这 些 分 离 的 
素 集 操作 结果 都 放 入 单个 表 中 (其 中 包含 了 很 多 空 值 ) ，OLAP 产品 可 以 将 这 些 表 转 化 为 交叉 表 
格 以 便 显示 。 在 多 维 数据 库 中 ， 从 概念 上 讲 ， 数 据 是 存储 在 多 维 数组 或 超 立 方 体 中 ， 数 组 的 维 代 
表 自 变量 ， 单 元 中 的 值 代表 应 变 最 。 自 变量 一 般 涉 及 不 同 的 分 类 层次 ， 分 类 层次 决定 了 应 变量 可 
以 分 组 、 聚 集 的 方式 。 

然后 谈 到 数据 挖 拥 。 由 于 一 般 来 说 决策 支持 不 被 充分 理解 ， 可 以 利用 计算 机 的 计算 能 力 来 帮 
助 我 们 发 现 数 据 中 的 模式 。 我 们 简单 介绍 了 几 种 规则 一 一 关联 规则 、 分 类 规则 和 序列 关联 规则 ， 
以 及 相关 的 支持 度 和 置信 度 等 概念 。 

最 后 我 们 简单 介绍 了 SQL: 1999 OLAP 修改 稿 中 新 增 的 一 些 功能 。 
习题 
22. 1 决策 支持 数据 库 和 操作 型 数据 库 有 什么 主要 区 别 ? 为 什么 一 般 要 把 决策 支持 应 用 和 操作 型 应 用 分 离 

开 来 ? 

22.2 决策 支持 中 的 操作 型 数据 准备 主要 包括 哪些 步骤 ? 

22.3 ”请 区 分 受 控 宛 余 和 失控 元 余 ， 并 举例 说 明 。 为 什么 在 决策 支持 环境 中 要 强调 受 控 元 余 ? 如 果 是 元 余 
失控 ， 会 出 现 什么 后 果 ? 

22.4 请 区 分 数据 仓库 和 数据 集 市 。 

22.5 什么 是 星 型 模式 ? 

22.6 ” 星 型 模式 一 般 都 不 是 完全 规范 化 的 ， 如 何 处 理 这 个 问题 ”站 述 其 设计 时 采用 的 方法 。 

22.7 ROLAP 和 MOLAP 之 间 有 什么 区 别 ? 

22.8 ” 当 数 据 包 括 四 维 ， 每 一 维 中 有 三 层 分 类 层次 时 ， 有 多 少 种 方法 进行 汇总 ? 

22.9 ”在 供应 商 -零件 - 工程 数据 库 中 ,用 SQL 语言 描述 以 下 查询 ， 
a 找 出 每 个 供应 商 、 零 件 和 工程 两 两 成 对 ( 即 对 于 每 对 S#-P#，P#-]# 和 ]#-S#) 所 对 应 的 发 货 次 数 

和 平均 发 货 量 。 

b. 找 出 每 个 供应 商 、 零 件 和 工程 任意 组 合 和 总 共 的 最 大 、 最 小 发 货 量 。 

c. 找 出 “ 沿 供应 商 维 ”和 “ 沿 零 件 维 ” 上 卷 的 总 发 货 量 。 警 告 : 这 里 有 个 陷阱 。 

d 找 出 每 个 供应 商 、 零 件 和 工程 任意 组 合 和 总 共 的 平均 发 货 量 。 

在 每 个 查询 中 给 出 SQL 产生 的 查询 结果 (采用 图 4-5 中 的 示例 数据 ) ， 并 用 交叉 表格 显示 、 
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22. 10 在 第 22. 6 节 的 开始 ， 我 们 给 出 了 只 包含 6 行 的 表 SP。 假 设 在 表 中 另外 增加 如 下 的 行 (表示 存在 供 
应 商 $5， 但 他 没有 供应 任何 零件 ): 


S5 | null null 


讨论 它 对 第 22. 6 节 中 所 有 查询 的 影响 。 

22. 11 “多 维 模式 ”和 “多 维 数据 库 ” 中 的 “ 维 ” 是 否 是 相同 的 概念 ?为 什么 ? 

22. 12 ”考虑 购物 艇 分析 问题 。 简 单 书写 关联 规则 (具有 指定 支持 度 和 置信 和 度 ) 的 发 现 算法 。 提示 : 某 种 
( 些 ) 商品 是 “人 们 不 感 兴趣 的 "， 指 的 是 它们 ) 只 在 很 少 交易 中 出 现 。 


参考 文献 


注意 : 文献 [22. 3-22.5] 、[22. 10] 、[ 22. 12] 、[ 22. 16] 、{ 22. 23] 、{ 22. 28] 、[ 22. 30】 和 [22.35] 
在 题目 中 提 到 的 “views” 指 的 是 快照 ， 而 不 是 视图 。 
[22. 1] Brad Adelberg, Hector Garcia-Molina, and Jennifer Widom:”The STRIP Rule System for Efficiently 
Maintaining Derived Data,” Proc. 1997 ACM SIGMOD Int. Conf on Management of Data, Tucson, 
Ariz (May 1997). 
STRIP 是 STanford Real-time Information Processor 的 缩写 。 一 旦 底层 数据 发 生变 化 ， 则 
STRIP 用 “规则 ” (通常 称 这 儿 为 触发 器 ) 来 更 新 快照 〈 称 这 儿 为 导出 数据 ) 。 通 常 这 种 系统 存 
在 的 问题 是 如 果 数 据 变化 频繁 的 话 ， 则 执行 这 些 规 则 的 计算 代价 将 变 得 非常 大 。 本 文 讨论 了 可 
以 减少 这 种 代价 的 STRIP 技术 。 
[22.2] Pieter Adriaans and Dolf Zantinge: Dara Mining. Reading ,Mass. :Addison-Wesley (1996 ) . 
尽管 本 书 被 描述 为 一 本 应 用 型 的 概述 ， 但 实际 上 该 书 详细 介绍 了 与 数据 挖 气相 关 的 主题 。 
[22.3] Foto N. Afrati ,Chen Li,and Jeffrey D. Uliman :”Generating Efficient Plans for Queries Using Views,” 
Proc. 2001 ACM SIGMOD Int Conf on Management of Data , Santa Barbara ,Calif ( May 2001 ). 
[22.4] “D. Agrawal,A. El Abbadi ,A. Singh,and T. Yurek: “Efficient View Maintenance at Data Warehouses,” 
Proc. 1997 ACM SIGMOD Int Conf. on Management of Data ,Tucson ,Ariz. ( May 1997 ) 
文献 [22. 12] 中 的 注解 中 提 到 ， 快 照 可 以 以 递增 的 方式 维护 ， 由 于 性 能 方面 的 原因 是 需要 
这 种 递增 式 的 维护 的 。 然 而 ， 如 果 快 照 是 由 一 些 间 时 更 新 的 不 同 数据 库 导 出 的 ， 那 么 这 种 递增 
式 的 维护 将 会 导致 一 些 问 题 。 这 篇 文章 提出 了 针对 这 个 问题 的 一 个 解决 方案 。 
[22.5] Sanjay Agrawal,Surajit Chaudhuri ,and Vivek Narasayya:”Automated Selection of Materialized Views 
and Indexes for SQL Databases,” Proc. 26th Int. Conf. on Very Large Data Bases , Cairo ,Egypt (Sep- 
tember 2000 ) . 
[22.6] S.Alter:Decision Support Systems:Current Practice and Continuing Challenges. Reading ,Mass. ;Addi- 
son-Wesley (1980). 
[22.7] IL. Bennett (ed. ) ;Building Decision Support Systems. Reading,Mass. :Addison-Wesley (1981). 
[22.8] RH. Bonczek,C. W. Holsapple,and A. Whinston: Foundations of Decision Support Systems. Orlando, 
Fla. :Academic Press (1981). 
最 早 导入 决策 支持 系统 规范 化 方法 的 著作 之 一 。 重 点 讨论 建 模 (经 验 和 数学 建 模 ) 和 管理 
科学 。 
[22.9] Charles J. Bontempo and Cynthia Maro Saracco:Database Management:Principles and Products. Upper 
Saddle River,N. J. :Prentice Hall (1996). 
[22.10] Rada Chirkova,Alon Y. Halevy ,and Dan Suciu:” A Formal Perspective on the View Selection Problem. ” 
Proc. 27th Int Conf on Very Large Data Bases ,Rome ,Italy ( September 2001 ). 
[22. 11] E.F. Codd ,S. B. Codd ,and C.T. Salley: “Providing OLAP (Online Analytical Processing ) to User-An- 
alysts: An IT Mandate , ”availablje from Arbor Software Corp. (1993). 
本 章 中 提 到 这 篇 论文 首次 给 出 了 “OLAP” 术 语 〈 在 22.6 小 节 中 ， 尽 管 不 是 概念 ) 。 注 意 : 
论文 一 开始 就 说 明 “ 它 不 是 要 引入 新 的 数据 库 技 术 ， 而 是 探讨 更 健壮 的 …… 分 析 工 具 ”。 但 实际 
上 却 是 在 讨论 一 种 新 的 数据 库 技术 ! 一 一 新 的 概念 数据 表达 、 新 操作 符 、 多 用 户 支持 (包括 安 
全 性 和 并 发 特征 ) 、 新 存储 结构 以 及 新 的 优化 特征 ; 换 名 话说， 讨论 一 种 新 的 数据 模型 和 一 种 新 
的 DBMS 。 
122. 12] Latha S. Colby et al. :”Supporting Multiple View Maintenance Policies,” Proc. 1997 ACM SIGMOD 














[22. 13] 


[22. 14] 


[22. 15 ] 


[22. 16] 








[22. 17 


[22. 18] 


[22.19] 


[22. 20] 





[22.21] 


[22. 22 ] 


[22. 23 ] 


[22. 24] 


[22. 25] 


[22. 26 ] 


[22. 27] 


务 22 莫 决 蓝 支 择 455 


Int Conf. on Management of Data ,Tucson ,Ariz. ( May 1997 ) . 

有 三 种 主要 的 方法 用 于 快照 更 新 ， 立即 更 新 (一旦 底层 关系 被 更 新 ， 立 即 会 引发 快照 的 更 
新 ) 、 延 迟 更 新 ( 仪 当 快照 被 查询 的 时 候 才 更 新 ) 以 及 周期 更 新 (快照 在 指定 的 时 间 被 更 新 - 比 
如 说 每 天 ) 。 快 照 是 以 牺牲 更 新 性 能 的 代价 来 改善 查询 性 能 ， 这 三 种 维护 策略 是 这 两 种 性 能 之 间 
的 平衡 。 这 篇 文章 研究 了 在 同一 个 系统 上 同时 对 不 同 快照 的 不 同 策略 支持 时 相关 的 问题 。 
C. Date:” We Don't Need Composite Columns,” in C. 工 Data, Hugh Darwen , and David McGove- 
ran, Relational Database Writings 1994 - 1997. Reading ,Mass. :Addison-Wesley ( 1998 ) . 

22. 3 节 中 提 到 了 复合 列 的 概念 ; 这 篇 论文 详细 讨论 了 这 个 概念 。 论 文 标题 指出 了 引入 复合 
列 是 没有 意义 的 ， 应 该 支持 合适 的 用 户 自 定义 类 型 。 
Barry Devlin; Data Warehouse from Architecture IO Implementation . Reading , Mass. :Addison-Wesley 
(1997). 
B. A. Devlin and P. T. Murphy:“ An Architecture for a Business and Information System,” IBM Sys. J. 
27,No. 1 (1988). 

第 一 篇 定义 和 使 用 “信息 仓库 ”的 论文 。 
Jonathan Goldstein and Per-Ake Larson:“ Optimizing Queries Using Materialized Views:A Practical, 
Scalable Solution,” Proc. 2001 ACM SIGMOD Int Conf. on Management of Data, Santa Barbara ,Calif. 
(May 2001). 
Jim Gray, Adam Bosworth ,Andrew Layman ,and Hamid Pirahesh :” Data Cube:A Relational Aggrega- 
tion Operator Generalizing Group-By , Cross-Tab ,and Sub-Totals,” Proc. 12th IEEE Int. Conf. on Data 
Engineering ,New Orleans, La. (February 1996 ) . 

最 早 建议 在 SQL GROUP BY 子 句 中 引入 CUBE 操作 的 文章 。 
W. H. inmon: Data Architecture: The Information Paradigm. Wellesley, Mass. : QED Information Sci- 
ences (1988 ) . 

讨论 了 数据 仓库 概念 的 起 源 ， 并 给 出 了 数据 仓库 的 特点 。 首 次 给 出 “数据 仓库 ”术语 。 
W. H. Inmon. Building the Data Warehouse. New York,N. Y. :John Wiley & Sons (1992 ) . 

描述 数据 仓库 的 第 一 本 书 。 定 义 了 开发 数据 仓库 时 的 相关 术语 及 关键 问题 。 主 要 涉及 概念 
和 物理 设计 问题 。 
W. H. Inmon and R. D. Hackathorn : Using the Data Warehouse. New York ,N.Y. :John Wiley & Sons 
(1994). 

面向 数据 仓库 的 用 户 和 管理 人 员 。 探 讨 物理 设计 问题 和 操作 型 数据 存储 。 
International Organization for Standardization (ISO ) :SCLALOL4P , Document ISO/IEC 9075-1:1999/ 
Amd. 1 :2000(E). 
P. G. W. Keen and M. S. Scott Morton: Decision Support Systems :An Organizational Perspective. Read- 
ing ,Mass. :Addison-Wesley (1978 ) . 

早期 的 决策 支持 经 典 著作 。 决 策 支持 系统 的 分 析 、 设 计 、 实 现 、 评 价 和 开发 。 
Werner Kiessling:” Foundations of Preferences in Database Systems”and“Preference SQL 一 Design ， 
Implementation ,Experiences, ”Proc. 28th int Conf. on Very Large Data Bases, Hong Kong ( August 
2002 ) . 

优先 允许 用 户 进行 模糊 查询 (比如 ，“ 给 我 找 一 家 好 的 四 川 餐馆 ， 不 要 太 贵 ， 最 好 在 市 
区 ”) 
Ralph Kimball: The Data Warehouse Toolkit. New York,N. Y. :John Wiley & Sons (1996). 

一 本 人 门 指导 书 。 在 子 标题 “建造 多 维 数据 仓库 的 实用 技术 ”中 ， 重 点 讨论 实际 问题 而 非 
理论 。 认 为 系统 在 逻辑 和 物理 上 没有 什么 本 质 不 同 。 
Yannis Kotidis and Nick Roussopoulos:" A Case for Dynamic View Management,” ACM TODS 26, 
No. 4 (December 2001 ). 
M. S. Scott Morton: “ Management Decision Systems:Computer-Based Support for Decision Making,” 
Harvard University ,Division of Research ,Graduate School of Business Administration (1971). 

本 文 是 一 篇 介绍 管理 决策 系统 的 经 典 文章 ， 将 决策 支持 应 用 到 计算 机 系统 中 。 建 立 了 特定 
的 “管理 决策 系统 " ， 用 于 卫生 产品 计划 。 后 来 又 应 用 到 市 场 管理 和 生产 管理 的 科学 测试 中 。 
K. Parsaye and M Chignell : Intelligent Database Tools and Applications. New York,N. Y. :John Wiley & 





456 


[22.28 ] 


[22. 29 ] 


[22. 30] 


[22. 31] 


[22. 32] 


[22. 33] 
[22. 34] 





[22. 35] 


各 五 部 分 高 级 冬 题 


Sons(1993 ) . 

第 一 篇 介绍 数据 挖掘 原理 和 技术 的 文章 (文中 使 用 “智能 数据 库 ” 术 语 )。 

Rachel Pottinger and Alon Levy:” A Scalable Algorithm for Answering Queries Using Views,” Proc.26th 
Int. Conf on Very Large Data Bases ,Cairo ,Egypt (September 2000). 

Dallan Quass and Jennifer Widom:”On-Line Warehouse View Maintenance,” Proc. 1997 ACM SIG- 
MOP Int Conf on Management of Data,Tucson, Ariz. ( May 1997). 

本 文 提出 了 快照 维护 的 一 种 算法 ， 人 允许 维 护 事务 和 查询 (而 不 是 快照 ) 一 起 进行 。 
Kenneth Salem ,Kevin Beyer, Bruce Lindsay ,and Roberta Cochrane:“ How to Roll a Join :Asynchronous 
Incremental View Maintenance , " Proc. 2000 ACM SIGMOD Int Conf on Management of Data, Dallas, 
Tex. ( May 2000). 

Erik Thomsen :OLAP Solutions: Building Multi-Dimensional Information Systems(2d ed. ). New York ， 
N. Y. :John Wiley & Sons (2002). 

本 文 是 最 早 讨论 OLAP 的 综合 性 文章 之 一 ,侧重 于 多 维 分 析 概 念 和 方法 。 

R. Uthurusamy :;“ From Data Mining to Knowledge Discovery: Current Challenges and Future Direc- 
tions,” in U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthumsamy (eds. ): Advances in 
Knowledge Discovery and Data Mining. Cambridge, Mass. :AAAI Press/ MIT Press (1996). 

Patrick Valduriez:“ Join Indices,” ACM TODS 12 ,No.2 (June 1987). 

Markos Zaharioudakis et al. :“ Answering Complex SQL Queries Using Automatic Summary Tables. ” 
Proc. 2000 ACM SIGMOD Int Conf on Management of Data ,Dallas ,Tex. (May 2000). 

Yue Zhuge, Hector Garcia-Molina, Joachim Hammer, and Jennifer Widom: “ View Maintenance in a 
Warehousing Environment,” Proc. 1995 ACM SIGMOD Int. Conf. on Management of Data, San Jose, 
Calif. (May 1995 ) . 

当 数 据 仓库 场地 被 告知 要 对 底层 数据 更 新 时 ， 它 在 实施 必要 的 快照 更 新 前 可 能 需要 向 基数 
据 场地 发 出 一 个 查询 请 求 ， 查 询 请 求 到 基数 据 更 新 之 间 的 时 间 延 迟 可 能 导致 异常 。 这 篇 论文 提 
出 了 处 理 这 种 异常 的 一 种 算法 。 
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23.1 引言 


简单 地 说 ， 时 态 数据 库 可 以 定义 为 ， 一 个 包含 了 历史 数据 ?或 同时 也 包含 当前 数据 的 数据 库 
(数据 仓库 就 是 一 个 典型 例子 一 一 参考 第 22 章 ) 。 传 统 的 或 者 非 时 态 的 数据 库 只 包含 了 当前 数 
据 ; 一 旦 它们 代表 的 命题 (proposition) 不 正确 ， 就 要 对 其 进行 修改 ， 以 维护 数据 的 当前 性 。 相 
反 ， 除 了 那些 第 一 次 将 数据 插入 的 插入 操作 ， 时 态 数 据 库 的 更 新 操作 非常 少 ， 甚 至 根本 没有 更 新 
操作 。 以 供应 商 - 零件 数据 库 为 例 ， 给 定 了 通常 的 采样 值 。 数 据 库 显 示 供 应 商 Si 的 状态 (状态 
是 “此 刻 ") 是 20。 但 是 在 同一 个 数据 库 的 时 态 数据 库 版 本 中 ， 数 据 库 显示 的 可 能 不 仅仅 是 此 刻 
的 供应 商 S1 的 状态 20， 还 会 显示 从 去 年 7 月 1 日 到 现在 , 它 的 状态 一 直 是 20， 而 从 去 年 的 4 月 
5 日 到 6 月 30 日 Si 的 状态 是 15， 等 等 。 

时 态 数据 库 研 究 从 20 世纪 80 年 代 早 期 就 开始 了 ， 其 中 包括 了 相当 数量 的 关于 它 的 时 间 本 质 
的 研究 。 这 里 有 一 些 提出 的 问题 : 

s 时 间 是 否 有 起 点 或 者 终点 ? 

se 时 间 是 连续 的 还 是 被 分 成 了 离散 的 量子 ? 

s 如 何 最 好 地 描述 “现在 ”( 有 时 被 描述 成 “移动 点 NOW”) 这 个 重要 概念 ? 
然而 ， 这 些 问题 并 不 是 真正 意义 上 的 数据 库 问题 ， 因 此 在 本 章 中 我 们 不 作 深 入 钻研 ， 而 只 是 简单 
地 进行 合理 假设 ， 使 我 们 的 精力 可 以 集中 在 与 我 们 的 整体 目标 直接 相关 的 事物 上 。 

我 们 用 到 了 一 个 事实 : 通常 情况 下 ， 数 据 可 以 被 视 为 它们 代表 的 命题 。 由 此 可 以 得 出 结论 ， 
时 态 数据 可 以 被 视 为 代表 带 时 间 稚 的 命题 一 一 也 就 是 说 ， 命 题 至 少 包 含 了 某 一 时 间 蕉 类 型 的 一 个 
说 法 。 例 如 ， 看 下 面 这 个 元 组 : 


[SFsiaee | 

从 这 个 元 组 中 可 以 看 到 ， 有 一 个 供应 商号 属性 S#， 俯 及 一 个 时 间 截 属性 “SINCE”， 相 应 的 
带 时 间 稚 的 命题 是 : 

供应 商 S1 从 2003 年 7 月 1 日 开始 就 签订 了 合约 。 

当然 ， 我 们 假设 了 命题 满足 下 列 谓词 ”形式 : 供应 商 S# 从 日 期 SINCE 开始 就 签订 了 合约 。 
后 面 我 们 会 解释 为 什么 在 这 个 谓词 中 (以 及 在 这 个 实例 中 ) 把 “从 …… 开始 ”设置 成 黑体 字 。 
首先 ， 先 来 看 看 另 一 个 例子 : 


3 TT 
May 1, 2002 | April 30, 2003 


这 个 元 组 有 一 个 供应 商号 属性 S#， 以 及 两 个 时 间 稚 属性 “FROM” 和 “TO”， 相 应 的 带 时 
间 稚 的 命题 是 : 

供应 商 S1 从 2002 年 5 月 1 日 到 2003 年 4 月 30 日 这 段 时 间 签 订 了 合约 。 

现在 我 们 假设 命题 满足 下 列 谓词 形式 : 供应 商 S# 从 日 期 FROM 到 日 期 TO 这 段 时 间 签 订 了 
合约 。 同 上 面 一 样 ， 我 们 在 后 面 解 释 其 中 使 用 的 黑体 字 。 

就 像 这 两 个 例子 显示 的 那样 ，“ 从 …… 开 始 ” 和 “从 …… 到 ……” 这 两 个 概念 在 接 下 来 的 表 
述 中 是 非常 重要 的 (事实 上 是 无 孔 不 人 的 )。 然 而 ,为 了 使 它们 真正 有 用 ， 我 们 需要 对 它们 进行 








他 ”在 时 态 数 据 库 中 ,“ 历 史 数据 ”可 以 包含 关于 过 去 和 未 来 的 数据 。 
人 @ 本章 中 我 们 使 用 无 条 件 的 “谓词 ”来 表示 在 第 9 章 中 我 们 称 为 “外 部 ”或 者 用 户 理解 的 谓词 。 





458 。 绢 五 记分 高 级 可 题 


非常 精确 的 定义 〈 比 我 们 在 通常 讨论 下 的 定义 要 精确 得 多 ) 。 细 节 如 下 : 

1)“ 从 …… 开 始 ” 表 示 从 指定 的 时 间 点 到 现在 ， 并 且 不 包括 此 前 的 一 刻 。 因 此 ， 当 我 们 说 ， 
供应 商 SI 从 2003 年 7 月 1 日 开始 就 签订 了 合约 ， 这 表示 (a) 供应 商 S1 从 2003 年 7 月 1 日 开始 
到 现在 ， 包 括 今天 一 一 无 论 日 期 是 什么 一 一 都 签订 了 合约 ， 而 (b) 供应 商 S1 存 2003 年 6 月 30 
日 时 没有 签 合 约 。 

2)“ 从 …… 到 .…… ”表示 贯穿 指定 的 时 间 区 间 ， 并 且 不 包括 此 前 或 此 后 的 时 刻 。 因 此 ， 当 
我 们 说 ， 供 应 商 S1 从 2002 年 5 月 1 日 到 2003 年 4 月 30 日 这 段 时 间 签订 了 合约 ， 这 表示 (a) 供 
应 商 S1 在 贯穿 2002 年 5 月 1 日 到 2003 年 4 月 30 日 这 段 时 间 里 签订 了 合约 ? ， 而 (b) 供应 商 
S1 在 2002 年 4 月 30 日 或 2003 年 5 月 1] 日 时 没有 签 合 约 。 


我 们 在 前 面 的 命题 和 谓词 中 使 用 了 黑体 字 “ 从 …… 开 始 ” 和 “从 …… 到 …… ”， 这 是 为 了 强 
调 我 们 在 前 面 使 用 术语 的 精确 性 。 而 在 后 面 的 内 容 中 将 不 再 使 用 黑体 字 。 
1. 一 些 基 本 假设 





我 们 已 经 提 到 过 时 间 区 间 和 时 间 点 ， 现 在 该 解释 它们 了 一 一 或 者 至 少 解释 一 下 支持 这 些 概念 
的 基本 假设 。 首 先 ， 我 们 假设 时 间 本 身 可 以 被 想象 成 一 条 时 间 线 (timeline) ， 由 离散 的 、 不 可 分 
割 的 时 间 量 子 的 有 限 序 列 组 成 ， 其 中 时 间 量子 是 系统 能 够 表示 的 最 小 时 间 单 位 。 换 句 话说， 即使 
真实 世界 中 的 时 间 是 连续 的 、 无 限 的 ， 但 在 我 们 的 模型 中 ， 将 它 表示 为 离散 的 、 有 限 的 。 注 意 ; 
这 与 我 们 通常 用 有 理 数 来 表示 实数 的 计算 模型 有 明显 的 相似 之 处 。 

接 下 来 ,我们 仔细 辨别 (1) 时 间 量 子 ， 刚 刚 解 释 为 系统 能 够 表示 的 最 小 时 间 单 位 ，(2) 与 
特定 目的 相关 的 时 间 单 位 ， 可 能 是 月 、 天 或 毫秒 等 。 比 如 ， 在 前 面 讨 论 的 关于 供应 商 的 例子 中 ， 
我 们 感 兴趣 的 时 间 要 精确 到 天 。 我 们 把 与 特定 目的 相关 的 时 间 单 位 称 为 时 间 点 (简称 点 )， 来 强 
调 为 此 目的 这 些 时 间 也 被 认为 是 不 可 分 割 的 。 现 在 ， 可 以 非 正式 地 说 ， 一 个 时 间 点 是 “时 间 线 
的 一 段 ” ， 表 示 一 个 边界 量 与 下 一 个 边界 量 之 间 〈 比 如， 一 天 的 午夜 到 第 二 天 的 午夜 ) 的 时 间 量 
子 的 集合 。 因 此 还 可 以 非 正式 地 说 ， 时 间 点 有 一 个 持续 时 间 (在 我 们 的 例子 中 是 一 天 ) 。 然 而 ， 
正式 地 说 ， 时 间 点 确实 是 点 一 一 它们 是 不 可 分 割 的 ， 持 续 时 间 的 概念 并 不 适用 。 

注意 : 尽管 在 前 面 的 段落 中 没有 直接 写 出 ， 但 我 们 确实 有 时 利用 了 “粒度 ”这 一 术语 ， 它 
非 正式 地 表示 了 应 用 的 时 间 点 的 大 小 〈 或 持续 时 间 ) ， 或 者 等 同 于 临近 点 之 间 的 区 间 的 大 小 〈 或 
持续 时 间 ) 。 因 而 我 们 可 以 说 ， 在 我 们 的 例子 中 ， 粒 度 是 一 天 ， 也 就 是 说 ， 消 除了 【在 此 处 的 上 
下 文中 ) 我 们 通常 认为 的 一 天 是 由 小 时 组 成 的 ， 小 时 是 由 分 钟 组 成 的 等 一 系列 概念 。 这 些 概念 
只 能 通过 追 索 更 细 层 次 的 粒度 来 表示 。 

在 某 一 特定 目的 下 ， 时 间 线 可 以 被 视 为 时 间 点 (与 时 间 量 子 相 反 ) 的 一 个 有 限 序 列 ;当然 ， 
该 序列 是 按照 时 间 顺 序 排列 的 。 既 然 它 是 有 限 的 ， 那 么 它 需 要 遵循 ， 

se 序列 有 一 个 起 点 和 一 个 终点 。 换 言 之 ， 序 列 中 存在 唯一 一 个 起 点 对 应 于 时 间 线 的 开端 ， 同 

时 还 存在 唯一 一 个 终点 对 应 于 时 间 线 的 末端 。 

a 在 序列 中 ， 除 了 对 应 于 时 间 开 端的 点 之 外 的 其 他 每 一 个 点 都 有 唯一 的 前 驱 点 ， 同 时 ， 除 了 
对 应 于 时 间 末 端的 点 之 外 的 其 他 每 一 个 点 都 有 唯一 的 后 继 点 。 

e 我 们 定义 一 个 时 间 区 间 为 时 间 线 上 的 一 个 非 空 区间 ”。 更 准确 地 说 ， 时 间 区 间 有 一 个 起 点 
5 和 一 个 终点 e， 它 可 被 视 为 是 由 所 有 点 p,，b<p<e (其 中 “<” 表 示 “ 早 于 ")， 组 成 
的 时 间 线 的 一 个 子 序列 。 

2. 例子 

， 当 提 到 “供应 商 和 发 货 ” 时 ， 如 果 不 另 行 声 明 ， 我 们 的 例子 都 是 基于 一 个 简单 的 供应 商 - 
零件 数据 库 的 。 具 体 地 说 : 





”本 章 中 我 们 采用 称 为 闭 区 间 的 解释 ， 根 据 这 种 解释 ， 从 b 到 。 的 区 间 被 视 为 包括 了 起 点 5b 和 终点 e。 我 们 也 注意 
到 了 在 文献 中 可 以 找到 其 他 解释 方式 。 

”如 果 你 熟悉 SQL， 那 么 提醒 你 ， 这 里 定义 的 时 间 区 间 与 在 SQL 中 理解 的 时 间 区 间 完 全 不 同 ， 它 不 是 通常 意义 下 
的 时 间 区 间 ， 而 是 指 持续 时 间 (例如 ,，“3 天 ”)。 
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1 ) 将 零件 关系 变量 P 全 部 删 掉 。 

2) 为 了 简化 供应 商 关系 变量 S， 删 除 其 除了 S# 以 外 的 所 有 属性 。 修 改 后 对 应 的 谓词 非常 简 
单 ， 是 : 

供应 商 S# 目 前 是 签订 了 合约 的 。 

3) 删除 发 货 关 系 变量 SP 中 的 QTY 属性 ， 修 改 后 的 关系 语义 是 : 

供应 商 S# 目 前 可 以 供应 零件 P#。 

换 句 话说， 关系 变量 SP 的 这 个 简单 版 本 ， 不 再 包含 供应 商 的 实际 发 货 信 息 ， 而 只 表示 可 被 
称 为 潜在 发 货 的 信息 一 一 某 供 应 商 提供 某 种 零件 的 能 力 。 注 意 : 尽管 这 已 经 改变 了 关系 变量 的 意 
义 ， 但 在 下 面 我 们 还 是 认为 使 用 “发 货 ” 这 个 术语 是 很 方便 的 。 - 

图 23-1 显示 了 这 个 简化 数据 库 的 一 组 实例 值 。 注 意 : 这 个 数据 库 仍 
然 完全 是 一 个 传统 数据 库 一 一 它 还 不 包含 任何 时 间 属 性 。 

现在 我 们 来 看 这 个 数据 库 上 的 一 些 约 东 和 查询 。 在 下 一 节 中 ， 我 们 
会 看 到 ， 当 对 数据 库 进行 扩展 使 其 包含 各 种 时 态 特征 时 ， 这 些 约束 和 查 
询 会 发 生 什 么 变化 。 

约束 〈 原始 数据 库 ) : 我 们 需要 考虑 的 约束 如 下 。 

a |S#} 和 |S#，P#| 分 别 是 关系 变量 S 和 SP 的 主 码 ”。 

sm |S#| 是 关系 变量 SP 的 外 码 ， 参 照 了 关系 变量 S 的 主 码 。 

查询 (原始 数据 库 ) : 我 们 只 考虑 两 种 查询 。 

查询 4: 取得 当前 至 少 可 以 供应 一 种 零件 的 供应 商 的 数目 。 


SP { S# } 


s 查询 B: 取得 当前 不 能 供应 任何 零件 的 供应 商 的 数目 。 


S { S# } MINUS SP { S# } 


可 以 观察 到 ， 查 询 4 包含 了 一 个 简单 的 投影 操作 ， 查 询 B 则 是 两 个 此 类 投影 的 差 。 在 
23. 5 节 中 ， 当 我 们 考虑 这 两 个 查询 的 时 态 版 本 时 ,会 发 现 对 上 述 两 个 操作 存在 相应 的 “时 
态 ” 形 式 (至 少 是 具有 普遍 意义 的 ) ， 并 且 你 会 了 解 到 其 他 关系 操作 也 可 以 定义 类 似 的 通用 的 
形式 。 

在 本 节 的 最 后 ， 来 看 一 下 本 章 其 余部 分 的 安排 。 首 先 ，23. 2 节 说 明 为 什么 时 态 数据 需要 特 
殊 对 待 。 接 下 来 的 23. 3 节 会 解释 怎样 将 区 间 处 理 为 一 个 数值 ， 而 不 是 起 点 和 终点 两 个 数值 ; 这 
一 节 还 特别 介绍 了 多 种 处 理 这 种 区 间 的 操作 。23. 4 节 讨 论 了 两 种 非常 重要 的 关系 操作 ， 归 并 和 
反 归 并 。23. 5 节 描 述 了 关系 代数 中 类 似 操作 的 通用 形式 。 最 后 ，23. 6 节 和 23.7 节 分 别 讨论 了 数 
据 库 设计 问题 和 完整 性 约束 。 


23.2 问题 是 什么 


第 一 步 就 是 要 将 供应 商 - 发 货 数 据 库 转化 成 包含 了 半 时 态 化 的 关系 变量 S 和 SP 的 形式 〈 通 
过 向 两 个 关系 变量 中 加 和 时间 戳 属性 SINCE) ， 并 且 根 据 这 一 转化 对 它们 进行 重 命名 。 如 图 23-2 
所 示 。 

为 了 简单 起 见 ， 在 图 23-2 中 没有 表示 出 来 真正 的 时 间 稚 ， 而 是 用 形 如 d07 ，d02 等 等 这 样 的 
符号 代替 ， 其 中 “d” 是 “day” 的 缩写 ， 贯 穿 整 章 我 们 都 会 使 用 这 个 约定 俗 成 的 表示 方法 。( 多 
数 例子 用 到 的 时 间 点 都 特 指 天 数 ， 因 此 在 那些 例子 中 应 用 的 粒度 是 一 天 。) 我 们 假设 日 期 1 马上 
接着 日 期 2, 日 期 2 马上 接着 日 期 3， 如 此 类 推 ; 同样 ， 也 从 表述 中 删 掉 开 头 没有 意义 的 零 ， 表 
示 成 “日 期 1”( 像 你 们 看 到 的 那样 ) 。 








QO 在 本 章 中 ， 为 了 明确 起 见 ， 我 们 假设 关系 都 有 特定 的 主 码 。 但 在 Tutorial D 的 关系 定义 中 ， 我 们 并 不 区 分 主 码 
和 预备 码 (altemate key) ， 而 是 将 它们 统一 视 为 候选 码 。 
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关系 变量 S_SINCE 和 SP_SINCE 的 谓词 语义 是 : 

@ S_SINCE: 供应 商 S# 从 SINCE 那天 开始 就 签订 了 合约 。 

@ SP_SINCE: 供应 商 S# 从 SINCE 那天 开始 就 可 以 供应 零件 P#。 

约束 〈 半 时 态 化 数据 库 ) : 图 23-2 的 “ 半 时 态 化 的 ”数据 库 中 的 主 码 和 外 码 与 图 23-1 的 原 
始 数据 库 的 相同 。 因 此 ， 关 系 变量 定义 如 下 : 


VRR S SINCE BASE RELATION { S# S#, SINCE DATE } 
KEY { S# } ; 


VAR SP SINCE BASE RELATION { S# S#, P# P#¥, SINCE DATE } 
KEY { S#, P# } 
FOREIGN KEY { S# } REFERENCES S SINCE ; 


这 里 的 DATE 类 型 表示 的 是 罗马 日 期 一 一 日 期 对 于 每 一 天 是 很 准确 的 ， 同 时 也 是 要 受到 罗 
马 日 历 规则 (其 中 隐 含 了 诸如 “2005 年 4 月 31 日 ”和 “2100 年 2 月 29 日 ”不 是 有 效 日 期 ) 约 
束 的 。 

然而 ， 在 外 码 上 ， 我 们 需要 另 一 个 从 SP_SINCE 到 S_SINCE 的 约束 ， 来 表示 任何 供应 商 在 
签约 之 前 不 能 提供 任何 零件 : 

CONSTRAINT XSTI /* " 半 时 态 外 部 约束 no.1”*/ 

IS _EMPTY (( (Ss _SINCE RENAME SINCE AS SS ) JOIN 


( SP | SINCE RENAME SINCE AS SPS ) ) 
WHERE SPS < SS ) :; 


(“如 果 SP_SINCE 中 的 元 组 sp 引用 了 S_SINCE 中 的 元 组 s， | SP_SINCE 
那么 sp 中 的 SINCE 值 不 能 小 于 s 中 的 SINCE 值 ” ) 。 通 过 这 
个 例子 ， 我 们 开始 看 到 问题 : 给 定 一 个 像 图 23-2 那样 的 “ 半 
时 态 ” 数 据 库 ， 我 们 可 能 需要 规定 很 多 普通 而 又 相当 麻烦 的 
约束 ， 就 像 约束 XSTI ， 于 是 我 们 就 希望 能 有 一 些 方便 的 速记 
符号 。 

查询 ( 半 时 态 化 数据 库 ) : 现在 考虑 查询 4 和 查询 8 的 半 
时 态 化 版 本 。 

e 查询 A: 取得 当前 至 少 可 以 供应 一 种 零件 的 供应 商 的 数 

目 ， 并 分 别 显示 从 何 时 起 可 以 供应 。 

如 果 供 应 商 Sx 现在 可 以 供应 一 些 零 件 ， 那 么 Sx 可 以 供应 ”图 23-2 供应 商 - 发 货 数据 库 
零件 的 最 早日 期 就 是 SP_SINCE 中 Sx 对 应 的 SINCE 的 最 小 值 ( 半 时 态 版 本 ) 实例 
(例如 ， 如 果 Sx 是 S1， 那么 S1 对 应 的 最 早 SINCE 日 期 为 
d04 ) 。 因 此 : 


SUMMARIZE SP BY { S# } ADD MIN ( SINCE ) AS SINCE 
查询 结果 如 下 : 


[Ta 








a 查询 B: 取得 当前 不 能 供应 任何 零件 的 供应 商 的 数目 ， 并 分 别 显示 从 何 时 起 无 法 供应 

在 我 们 的 示例 数据 中 可 以 看 到 ， 现 在 只 有 一 位 供应 商 S5 无 法 供应 任何 零件 。 但 是 我 们 无 从 
得 知 它 从 何 时 起 无 法 供应 零件 ， 因 为 数据 库 中 还 没有 足够 的 信息 ( 重复 一 次 ， 这 个 数据 库 还 只 
是 半 时 态 化 的 ) 。 例 如 ， 假 设 现 在 的 日 期 为 410， 那 么 S5 可 能 在 日 期 402 到 d09 都 可 以 供应 至 少 
一 种 零件 ,或 者 是 另 一 个 极端 ，S5 可 能 从 来 就 无 法 供应 任何 零件 。 
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要 回答 查询 B， 必 须 完全 “时 态 化 ”整个 数据 库 ， 或 者 至 少 要 完全 “时 态 化 ”SP 这 部 分 。 
具体 地 说 ， 就 要 在 数据 库 中 保存 历史 记录 ， 来 反映 每 个 供应 商 在 何 时 可 以 供应 何 种 零件 。 如 图 
23-3 所 示 。 

比较 图 23-3 和 图 23-2， 我 们 看 到 SINCE 属性 已 经 变 成 了 FROM 属性 ， 并 且 每 个 关系 变量 都 
增加 了 TO 这 个 时 间 蕉 属性 ( 相应 地 ， 我 们 用 _FROM_TO 替代 了 原来 关系 变量 的 名 字 _SINCE ) 。 
FROM 和 TO 两 个 属性 合 在 一 起 ， 描 述 了 时 间 区 间 的 概念 ， 在 这 段 时 间 内 某 些 命题 是 真 的 。 注 
意 : 我 们 已 经 明确 假设 了 今天 是 日 期 10 ， 因 此 每 个 关于 事务 当前 状态 的 元 组 ， 它 的 属性 TO 的 值 
都 显示 为 由 0。 然 而 ， 这 一 假设 应 该 立刻 使 你 想到 ， 是 什么 机 制 可 以 保证 在 过 了 日 期 10 的 午夜 
时 ， 所 有 那些 d10 会 替换 为 411。 这 个 问题 我 们 将 暂时 放 一 放 ， 在 第 23.6 节 上 再 回 到 这 个 问题 
上 来 。 

可 以 观察 到 ， 由 于 我 们 保存 了 历史 记录 ， 因 此 基数 的 数目 比 以 前 要 多 ; 事实 上 , 图 23-3 的 
完全 时 态 化 数据 库 ， 包 括 了 图 23-2 的 半 时 态 化 版 本 的 所 有 信息 ， 除 了 一 点 ， 从 这 个 例子 来 说 ， 
我 们 将 两 条 供应 商 S4 发 货 记录 的 TO 值 显 示 为 当前 日 期 之 前 的 某 个 日 期 (也 就 是 说 ， 我 们 将 那 
两 条 发 货 记录 从 “当前 ”日 期 转化 成 “历史 ”信息 )。 图 23-3 也 包括 了 从 d02 到 d04 这 一 早 些 
时 间 区 间 内 的 历史 信息 ， 在 这 段 时 间 内 ， 供 应 商 S2 是 签订 了 合约 的 ， 并 且 可 以 供应 某 些 零件 。 
谓词 语义 如 下 : 

aa S_FROM_TO; 供应 商 S# 从 FROM 到 TO 这 段 时 间 里 是 签订 了 合约 的 。 

am SP_FROM_TO， 供应 商 S# 从 FROM 到 TO 这 段 

时 间 里 可 以 供应 零件 P#。 

关于 这 个 完全 时 态 化 的 例子 ， 还 有 一 些 方 面 需要 
强调 。 具 体 地 说 ， 我 们 假设 : 

1) 任何 供应 商都 不 能 在 某 一 天 结束 一 个 合约 ， 而 
紧 接 着 在 第 二 天 开始 另 一 个 合约 。 

2) 任何 供应 商都 不 能 在 同一 时 间 签 订 两 份 不 同 的 
合约 。 

3) 供应 商 的 合约 是 可 修整 的 一 一 也 就 是 说 ， 一 
供应 商 可 以 签订 了 一 份 合 约 ， 并 且 合 约 的 终止 日 期 目 
前 还 是 未 知 的 。 

约束 (第 一 个 时 态 数 据 库 ) : 首先 ， 观 察 图 23-3 
中 双 下 划 线 的 属性 ， 两 个 关系 变量 的 主 码 中 都 包括 了 图 23-3 供应 商 - 发 货 数 据 库 〈 第 一 个 
FROM 属性 。 确 实 ，( 举 个 例子 ) S_FROM_TO 的 主 码 完全 时 态 化 版 本 ， 显 式 地 用 到 
不 能 只 是 |S#| ， 否 则 就 无 法 处 理 诸 如 一 个 供应 商 ， 了 FROM 和 TO 属性 ) 实例 
比如 S2， 在 两 个 或 多 个 单独 的 时 间 区 间 内 签订 了 合约 这 样 的 问题 。SP_FROM_TO 的 情况 也 是 类 
似 的 。 注 意 : 也 可 以 用 TO 代替 FROM 作为 主 码 属性 ; 事实 上 ， 在 S_FROM_TO 和 SP_FROM _ 
TO 中 都 有 两 个 候选 码 ， 没 有 明显 的 原因 决定 一 定 要 选择 哪个 作为 主 码 [9. 14]。 这 里 选择 
FROM 纯粹 是 为 了 使 事情 更 明确 。 

下 面 是 Tutorial D 的 定义 : 


VAR S_FROM TO 
BASE RELATION { S# S#, FROM DATE, TO DATE } 
KEY { S#, FROM } 
KEY { S#, TO }; 
VAR SP_ FROM TO 
BASE RELATION { S# S#, P# P#, FROM DATE, TO DATE } 
KEY { S#, P¥, FROM } 
KEY { S#, P#, TO } ; 


接 下 来 ， 我 们 需要 防止 一 种 荒 廖 错 误 的 出 现 : 就 是 在 FROM_TO 这 对 值 中 ，TO 的 值 小 于 
FROM 的 值 : 
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CONSTRAINT S_FROM TO_OK 
IS_EMPTY 1 S_FROM TO WHERE TO < FROM ) ，; 


CONSTRAINT SP_FROM TO OK 
IS_EMPTY (“SP _ FROM TO WHERE TO < FROM ) ; 


到 目前 为 止 讨论 的 约束 还 不 能 做 到 我 们 所 希望 它们 做 到 的 每 件 事 。 比 如 ， 考 虑 关系 变量 
S_FROM_TO。 很 显然 ， 如 果 其 中 存在 供应 商 Sx 的 一 个 元 组 ，FROM 的 值 为 f{，TO 的 值 为 +， 那 
么 就 不 希望 在 该 关系 变量 中 还 存在 供应 商 Sx 的 另 一 个 元 组 ， 表 明 Sx 在 f 的 前 一 天 或 者 1 的 后 一 
天 也 是 处 在 合同 约束 下 的 。 举 个 例子 ， 供 应 商 S1 在 S_FROM_TO 中 有 一 个 元 组 ，FROM = d04， 
TO =d10。|S#，FROM| 是 候选 码 ， 但 这 不 足以 防止 S1 有 另 一 个 “ 重 全 ”元 组 出 现 这 种 情况 ， 
比如 FROM = d02，TO = d06 ， 这 表明 在 d04 之 前 与 S1 建立 了 合同 关系 。 很 显然 ， 我 们 希望 将 这 
两 个 元 组 归并 为 S1 的 一 个 元 组 ，FROM = d02,，TO = d10。 

你 现在 应 该 已 经 猜 到 归并 元 组 这 个 想法 非常 重要 。 确 实 ， 在 前 面 那个 例子 中 ， 不 对 两 个 
元 组 进行 归并 ， 几 乎 等 于 允许 副本 的 存在 ! 副本 意味 着 “将 相同 的 事情 说 两 沉 ”。 供 应 商 S1 
的 那 两 个 元 组 在 FROM-TO 区 间 上 是 重 秋 的， 确实 等 网 于 “将 相同 的 事情 说 两 遍 ”; 具体 来 
说 ， 它 们 都 表明 了 供应 商 Sl 在 日 期 4、5、6 是 签订 了 合约 的 。 如 果 两 个 元 组 同时 出 现 ， 那 么 
关系 变量 S_ FROM_TO 就 违背 了 它 自己 的 谓词 语义 。 在 23.7 节 中 我 们 会 再 来 看 这 个 问题 并 详 
细 讨 论 它 。 

接 下 来 ，{S#，FROM| 是 候选 码 这 一 事实 ， 也 不 足以 防止 出 现 S1 存在 另 一 个 “邻接 ”元 
组 的 情况 ， 比 如 FROM = d02 ，TO = d03， 这 也 表明 在 日 期 4 的 前 一 天 S1 就 已 经 签订 了 合约 。 同 
前 面 一 样 ， 我 们 希望 将 两 个 元 组 归并 为 一 个 一 一 否则 ， 关 系 变量 S_FROM_TO 也 会 违背 它 自 己 
的 谓词 语义 。 我 们 还 是 会 在 23.7 节 中 再 来 看 这 个 问题 并 详细 讨论 它 。 

下 面 给 出 防止 重 咎 和 邻接 出 现 的 约束 : 


CONSTRAINT XFT1 
IS EMPTY 
一 ( ( ( 8 FROM TO RENAME ( FROM RS Fl, TO RS T1 ) ) JOIN 
( STFROM TO RENAME ( FROM AS F2, TO AS T2 ) ) ) 
“WHERE ( Tl > F2 AND T2 > Fl ) } OR 
{ F2 = Tl+1 OR Fl1 = T2+1 ) };}; 

现在 我 们 开始 真正 看 这 个 问题 ! 这 个 约束 相当 复杂 一 一 更 不 用 说 将 TI + 1 作为 TI 的 直接 后 
继 这 一 事实 ， 这 一 点 我 们 将 在 下 一 节 进 行 讨论 。 此 外 ， 给 定 一 个 像 图 23-3 那样 的 完全 时 态 数据 
库 ， 我 们 可 能 需要 规定 很 多 像 约束 XFTI1 一 样 具 有 普遍 性 质 的 约束 ， 因 此 我 们 还 是 希望 有 一 些 好 
的 速记 符号 。 注 意 ; 事实 上 ,约束 XFT1 还 存在 另 一 个 问题 : 如 果 TI 恰好 表示 最 后 一 天 ， 那 么 
TI +1 的 含义 是 什么 ? 

接 下 来 要 注意 ， 关 系 变量 SP_FROM_TO 中 的 属性 组 合 | S#，FROM| 不 是 从 SP_FROM_TO 
到 S_FROM_TO 的 外 码 (尽管 在 S_FROM_TO 的 主 码 中 也 包含 这 些 属 性 ) 。 可 是 ， 如 果 在 SP_ 


FROM_TO 中 包含 了 某 个 供应 商 ， 那 么 要 确保 它 也 包含 于 S_FROM_TO 中 ” ， 


CONSTRAINT XFT2 
SP_FROM_TO { S# } C S_FROM TO { Ss# } ， 

这 个 约束 是 包含 依赖 〈inclusion dependency) [11.4] 的 一 个 例子 。 就 像 第 11 章 说 的 
那样 ， 包 含 依赖 可 被 视 为 参照 约束 的 一 个 普遍 形式 。 很 明显 ， 任 何 一 个 像 图 23-3 那样 的 时 
态 数据 库 都 可 能 包含 了 (至 少 是 隐 含 了 ) 大 量 这 样 的 依赖 。 

但 是 仅仅 有 约束 XFT2 还 不 足够 一 一 我 们 还 需要 确保 ， 如 果 关 系 变量 SP_FROM_TO 显示 了 
某 个 供应 商 在 某 个 时 间 区 间 内 可 以 供应 某 种 零件 ， 那 么 关系 变量 S FROM_TO 就 应 该 显示 这 个 
供应 商 在 同一 时 间 区 间 内 已 经 签订 了 合约 : 





外 其 中 “CE” 表 示 “ 包 含 于 "。 一 一 译 者 注 
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CONSTRAINT XFT3 
COUNT ( SP FROM TO { ALL BUT P# } ) 
COUNT ( (下 SP FROM TO RENAME ( FROM AS SPF, TO AS SPT ) ) 
{ ALL BUT P# } 


JOIN 
( 5 FROM TO RENAME ( FROM RS SF，TO RS ST ) ) ) 
WHERE SF < SEF AND ST > SPT ) ; 


这 里 的 直觉 就 是 ， 如 果 关 系 变 量 SP_FROM_TO 包含 了 一 个 元 组 ， 显 示 供 应 商 Sx 从 日 期 spf 到 日 
期 spt 可 以 供应 某 种 零件 ， 那 么 关系 变量 S_FROM_TO 必须 包含 一 个 元 组 ， 表 明 供 应 商 Sx 在 相 
同 的 这 段 时 间 里 是 签订 了 合约 的 。 (这 里 我 们 假设 到 目前 为 止 讨论 的 所 有 约 东 都 是 有 效 的 !) 我 
们 有 意 不 对 这 个 约束 提供 更 深 一 层 的 分 析 ， 而 是 再 次 关注 它 的 复杂 性 ， 并 且 在 一 个 现实 的 数据 库 
中 我 们 可 能 需要 规定 很 多 同样 有 普遍 性 质 的 约束 。 因 此 ， 我 们 还 是 希望 能 有 好 的 、 适 用 的 速记 
符号 。 
查询 〈 第 一 个 时 态 数据 库 ) :以 下 是 查询 4 和 查询 8 的 完全 时 态 化 版 本 。 
sa 查询 4: 查询 至 少 在 某 一 个 时 间 区 间 可 以 供应 某 种 零件 的 供应 商 的 三 个 属性 S#FROM- 
TO， 其 中 FROM 和 TO 合 起 来 表示 这 样 的 一 个 时 间 区 间 。 注 意 ， 查 询 结果 可 能 包含 了 同 
一 个 供应 商 的 多 个 元 组 (但 是 ， 当 然 是 在 不 同 的 时 间 区 间 ; 另外 ， 这 些 时 间 区 间 既 不 会 
邻接 也 不 会 重合 )。 
s 查询 B， 查询 至 少 在 某 一 个 时 间 区 间 内 不 能 供应 任何 零件 的 供应 商 的 三 个 属性 S#-FROM- 
TO， 其 中 FROM 和 TO 合 起 来 表示 这 样 的 一 个 时 间 区 间 (查询 结果 还 是 可 能 包含 了 同一 
个 供应 商 的 多 个 元 组 ) 。 
同 我 们 一 样 ， 你 可 能 需要 一 些 时 间 来 说 服 自己 ， 也 可 能 根本 不 想 尝 试 这 些 查 询 ! 然而 ， 如 果 
真 的 尝试 一 下 ， 你 会 发 现 这 些 查 询 还 是 可 以 表述 出 来 的 ， 尽 管 要 极为 费力 才能 实现 ， 但 很 明显 需 
要 某 些 速记 [表示 符号 ] 是 很 值得 的 。 
简 而 言 之 ， 时 态 数 据 的 问题 在 于 它 会 很 快 导致 一 些 表述 起 来 过 度 复杂 的 约束 和 查询 一 一 更 不 
用 说 超出 本 章 讨论 范围 的 更 新 了 。 过 度 复杂 是 说 除非 系统 提供 适当 的 速记 符号 ， 否 则 查询 实现 起 
来 很 难 ， 而 目前 现 有 的 商用 数据 库 管理 系统 还 没有 提供 这 些 速 记 符号 。 


23.3 时 间 区 间 


我 们 从 现在 就 开始 开发 一 些 合适 的 速记 符号 [ ] 。 最 初 的 、 同 时 也 是 最 基本 的 步骤 ， 就 是 将 
时 间 区 间 本 身 视 为 一 个 值 ， 而 不 是 像 此 前 那样 作为 一 对 分 离 的 起 始点 和 终止 点 值 来 处 理 。 比 如 ， 
考虑 从 日 期 4 到 日 期 10 的 这 段 时 间 区 间 。 为 了 强调 将 这 一 时 间 区 间 本 身 看 作 一 个 值 ， 我 们 会 用 
非 正 式 的 缩写 表达 式 [do4 :d10] 来 表示 它 ， 而 不 是 使 用 诸如 “从 日 期 4 到 日 期 10 的 时 间 区 间 ” 
这 种 累 歼 的 表述 方式 。 这 种 符号 的 具体 含义 如 下 ， 
sm [404:d10] 是 一 个 区 间 值 ， 或 者 简单 地 说 只 是 一 个 区 间 。 
se d04 和 d10 这 两 个 数值 分 别 是 区 间 值 的 起 始点 和 终止 点 。 
e 此 区 间 值 是 某 种 确定 的 区 间 类 型 。 
s 这 种 区 间 类 型 是 定义 在 某 种 点 类 型 之 上 的 。 
马上 我 们 会 准确 定义 所 有 这 些 术 语 。 首 先 要 看 看 ， 如 果 采 取 了 这 种 方法 ， 我 们 的 示例 数据 库 会 发 
生 什 么 变化 。 如 图 23-4 所 示 。 
谓词 语义 如 下 : 
m S_DURING: 供应 商 S# 从 DURING 的 起 始点 到 DURING 的 终止 点 这 段 时 间 区 间 内 签订 了 
合约 。 
@ SP_DURING:， 供应 商 S# 从 DURING 的 起 始点 到 DURING 的 终止 点 这 段 时 间 区 间 内 可 以 供 
应 零件 P#。 
现在 进行 正式 定义 。 首 先 ， 如 果 下 面 的 所 有 定义 都 适用 于 一 个 给 定 的 类 型 T， 那 么 类 型 了 可 
被 用 于 点 类 型 (类 型 了 的 值 可 被 称 为 点 ) : 
a 一 个 全 序 ， 根据 这 个 全 序 ， 类 型 7 的 每 一 对 数值 v/ 和 2 之 间 都 可 以 定义 一 个 运算 符 
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“>"; 如 果 v 各 是 不 同 值 ， 那么 表达 式 “wj > 以 ”和 “ 忆 > ”中 一 定 有 一 个 是 正 
确 的 ， 而 另 一 个 是 错误 的 。 注 意 : 从 第 5 章 我 们 知道 ， 运 算 符 “ = ”也 是 为 了 定义 的 。 
因此 ， 加 上 前 面 定义 的 “ > ”( 也 包括 可 用 的 布尔 运算 符 NOT) ， 我 们 可 以 合理 地 假设 所 





有 常用 的 比较 运算 符 “=”,“ 关 ”， “>”， “2”， “<” 以 及 “和 ”对 类 型 了 的 每 对 值 
都 是 适用 的 。 

am 零 元 运算 符 FIRST_T 和 LAST_T， 根据 前 面 提 | s_puRING SP_DURING 
到 的 全 序 ， 分 别 返回 类 型 了 的 第 一 个 和 最 后 一 


个 数值 。 
sa 一 元 运算 符 NEXT_T 和 PRIOR_T， 对 于 一 个 
给 定 的 7 类 型 的 值 ， 根 据 前 面 提 到 的 全 序 ， 分 : 
别 返 回 它 的 后 继 和 前 继 。 注 意 : NEXT_T 是 类 [d02:d10] 
型 了 的 后 继 函 数 ; 当然 ， 如 果 p =LAST_T( )， 
则 NEXT_T(p) 是 无 意义 的 。 同 样 地 ， 如 果 p = 
FIRST_T( ) ， 则 PRIOR_T(p) 是 无 意义 的 。 
接 下 来 ， 我 们 定义 区 间 类 型 发 生 器 9。 如 果 了 是 
一 个 点 类 型 ， 则 INTERVAL_T 是 通过 调用 类 型 了 的 类 
型 发 生 器 得 到 的 一 个 时 间 区 间 类 型 。 同 所 有 的 类 型 发 
生 器 -- 样 ， 时 间 区 间 与 一 组 普通 的 可 能 的 表示 法 .一 图 23-4 供应 商 -发 货 数 据 库 (使 用 了 区 
组 普通 的 操作 符 以 及 一 组 普通 的 约束 联系 起 来 ， 所 有 间 的 第 二 个 完全 时 态 版 本 ) 实例 
的 这 些 都 应 用 于 每 种 从 发 生 器 得 到 的 类 型 。 更 详细 地 说 : 
s 我 们 只 考虑 一 个 可 能 的 表示 法 : INTERVAL_T 类 型 的 任意 值 一 一 即 此 种 类 型 的 任意 时 间 
区 和 间 一 一 可 能 被 表示 为 类 型 了 的 一 对 值 ， 分 别 对 应 于 时 间 区 间 的 起 始点 和 终止 点 。 下 面 是 
选择 操作 符 的 相应 语法 : 


INTERVAL 7 ( {bb:el]) 


这 里 b 和 e 是 类 型 为 了 的 表达 式 ， 整 个 选择 操作 返回 了 以 这 两 个 表达 式 为 起 始点 和 终止 点 
的 时 间 区 间 。 
em 下 面 是 “THE_ 操作 符 ”BEGIN 和 END 对 应 的 语法 : 


BEGIN ( 1 ) 
END ( i ) 
这 里 i 是 类 型 为 某 种 时 间 区 间 的 表达 式 ， 而 这 两 种 操作 返回 了 表达 式 指定 的 时 间 区 间 的 起 
始点 和 终止 点 。 注 意 : BEGIN 和 END 是 真正 的 “THE_” 操 作 符 ， 在 Tutorial D 中 我 们 
通常 将 它们 写作 THE_BEGIN 和 THE_END。 这 里 以 及 整个 这 一 章 ， 我 们 用 BEGIN 和 END 
来 代替 ， 主 要 是 为 了 与 此 领域 中 的 其 他 著作 保持 连贯 性 。 
s 其 他 操作 符 包 括 “: =”; 一 组 布尔 操作 符 ， 被 称 为 Allen 的 操作 符 ( 见 本 节 后 面部 分 ) ， 
特别 是 包括 了 “ =”; 各 种 其 他 操作 符 〈 见 本 节 后 面部 分 ) 。 
sm 我 们 只 考虑 一 个 一 般 性 的 约束 : 如 果 守 是 一 个 时 间 区 间 ， 则 BEGIN ( <END (i)。 结 
论 就 是 ， 时 间 区 间 是 非 空 的 一 一 这 个 区 间 至 少 包含 一 个 点 。 另 一 个 结论 是 ， 不 再 需要 这 样 
的 显 式 约束 ， 即 “防止 在 一 对 FROM_TO 值 对 中 出 现 TO 值 小 于 FROM 值 的 情况 ”。 
现在 应 该 很 清楚 ，DATE 类 型 是 满足 要 求 的 ， 可 以 作为 一 种 点 类 型 使 用 。 因 此 ，INTERVAL_ 
DATE 是 有 效 的 时 间 区 间 类 型 ， 关 系 变量 S_ DURING 和 SP_DURING 的 定义 可 以 如 下 : 














”需要 指出 ， 时 间 区 间 类 型 发 生 器 是 本 章 介绍 的 唯一 一 个 非 速 记 结构 。 因 此 我 们 对 于 时 态 数 据 库 的 方法 一 一 不 同 
于 文献 中 描述 的 其 他 一 些 方法 一 一 与 经 典 关系 模型 相 比 没有 任何 变化 (尽管 后 者 包括 了 一 些 普 遍 性 ， 参 见 23. 5 
节 和 23.7 节 )。 | 
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VAR 5S DURING BASE RELATION 
{ S¥ S#, DURING INTERVAL DATE } 
KEY { S#, DURING } ; 


VAR SP DURING BASE RELATION 
{ S# S#, P# P#, DURING INTERVAL DATE } 
KEY { S#, P#, DURING } ; 


注意 ， 这 些 定义 还 很 不 完整 ! 23. 7 节 中 我 们 会 对 这 个 问题 进行 详细 说 明 。 然 而 可 以 看 到 的 
是 ,我 们 已 经 对 一 个 问题 进行 了 定义 ， 那 就 是 在 两 个 候选 码 中 如 何 任意 选择 一 个 作为 主 码 。 对 于 
23.2 节 中 的 其 他 约束 和 查询 ， 它 们 的 相似 性 可 以 通过 图 23-4 的 数据 库 推导 出 来 ， 这 就 要 归功 于 
BEGIN 和 END 这 两 个 操作 符 的 存在 了 。 但 在 这 里 我 们 不 做 任何 推导 ， 因 为 我 们 的 目标 是 移出 一 
种 更 好 的 描述 约束 和 查询 的 方法 ， 而 它 恰好 是 目标 的 一 部 分 。 

强调 一 下 ，DATE 类 型 是 一 种 有 效 的 点 类 型 一 一 但 没有 要 求 说 点 类 型 要 指定 为 “日 期 时 间 ” 
类 型 ， 也 没有 指定 区 间 必 须 是 “日 期 时 间 ” 区 间 。 实 际 上 ， 虽 然 区 间 是 处 理 时 态 数据 库 所 必需 
的 基本 抽象 ， 但 是 很 明显 ， 区 间 这 个 概念 应 该 有 更 广泛 的 适用 性 ; 也 就 是 说 ， 区 间 还 有 很 多 其 他 
的 应 用 ， 在 这 些 应 用 中 ， 区 间 并 不 一 定 要 具有 时 态 性 。 下 面 有 一 些 例子 : 

a 缴 税 等 级 用 需 纳税 的 收入 的 范围 来 表示 一 一 即 区 间 的 起 始点 和 终止 点 (以 及 中 间 的 所 有 

点 ) 都 是 货币 值 。 

s 操作 机 器 要 在 一 定 的 温度 和 电压 范围 内 一 一 即 区 间 内 包含 的 点 分 别 是 温度 和 电压 。 

u 动物 在 它们 的 眼睛 和 耳 打 能 够 接收 到 的 光 和 声波 频率 范围 内 发 生 不 同 的 变化 。 

a 很 多 自然 现象 的 发 生 和 测量 ， 都 要 在 土壤 或 海洋 的 一 定 深度 ， 或 者 海拔 的 一 定 高 度 范围 

内 。 

尽管 在 本 章 中 ， 我们 主要 关注 的 是 时 态 区 间 ， 但 很 多 的 讨论 实际 上 都 与 通常 意义 上 的 区 间 相 

关 。 然 而 ， 由 于 篇 幅 限 制 不 允许 讨论 过 于 详细 ， 因 此 这 里 我 们 只 讨论 两 个 非 时 态 区 间 类 型 的 





加 INTERVAL INTEGER 
这 里 的 点 类 型 是 INTEGER; 后 继 函 数 是 “下 一 个 整数 ”( 即 “加 一 ”)， 这 一 区 间 类 型 的 
值 是 形 如 [2 : e] 的 区 间 ， 其 中 5b 和 e 是 INTEGER 类 型 的 值 ， 且 b <e。 
INTERVAL MONEY 
假设 这 里 的 MONEY 代表 了 一 种 用 美元 和 美 分 来 衡量 的 货币 量 。 后 继 函 数 是 “加 上 一 美 
分 "”。 这 一 区 间 类 型 的 值 是 形 如 [5 : e] 的 区 间 ， 其 中 65 和 e 是 MONEY 类 型 的 值 ， 且 
b<e, 
1. 点 和 区 间 上 的 操作 
现在 开始 定义 一 些 在 点 和 区 间 上 有 用 的 操作 (在 前 面 讨论 的 基础 上 )。 修 改 例子 使 它 可 以 说 
明 这 些 操作 的 功能 ， 这 个 留 做 练习 。 术 语 : 为 一 种 点 类 型 ，p、pl 和 p2 是 类 型 为 了 的 值 ; 非 正 
式 的 情况 下 ， 我 们 分 别 用 p+1 和 p -1 表示 p 的 后 继 和 前 驱 。 此 外 ,i、 订 和 讼 是 类 型 为 INTER- 
VAL 7 了 的 区 间 ,， 而 b、b1、b2 以 及 e、el 和 e2 分 别 是 i、i 和 讼 的 起 始点 和 终止 点 ， 非 正式 的 
情况 下 ， 我 们 分 别 用 [b : e]、[b1: el1] 和 [4b2: e2] 表示 i、i 和 论 。 则 : 
IS_NEXT_T(p1,p2) 为 真 ， 当 且 仅 当 pl 是 p2 的 直接 后 继 。IS_PRIOR_T(P7 ,p2 ) 为 真 ， 当 
且 仅 当 1S_NEXT_T(p2,p1) 为 真一 一 即 IS_PRIOR_T(pl,p2)=IS_NEXT_T(p2,p1)。 
如果 pl <p2 为 真 ，MAX(pl,p2) 的 返回 值 为 p2， 否则 返回 值 为 p1 ; 如 果 pl < p2 为 真 ， 
MIN(p1,p2) 的 返回 秆 为 p] ， 否 则 返回 值 为 p2。 
mg pei 为 真 ， 当 有 生 仅 当 bsp 和 p<e 都 为 真一 一 即 pei= (bgp AND p<e)。 另 外 , iap 
三 pei。 注意 : 符号 < 和 符号 3 分 别 读 作 “包含 于 ”和 “包含 " 。 
s COUNT (i) 返回 满足 条 件 pei 的 点 p 的 个 数 。 
ma 当 且 仅 当 COUNT (i) =1 时 , i 是 一 个 单位 区 间 。POINT FROM i 返回 单位 区 间 i 中 的 唯 
一 点 p。 
a PRE (i) 和 POST (i) 分 别 返 回 b-1 和 e+1。 注 意 ; PRE (i) 和 POST (i) 分 别 是 
PRIOR_T (BEGIN (i)) 和 NEXT_T (END (i)) 的 速记 。 
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下 面 要 定义 一 些 操 作 符 来 测试 两 个 区 间 是 否 相 等 、 是 否 重 合 ， 等 等 。 这 类 操作 符 中 的 多 数 都 
是 Allen 在 文献 [23.1] 中 第 一 次 提出 来 的 ， 所 以 它们 一 般 被 称 为 Allen 的 操作 符 ; 但 在 这 里 ， 
我 们 并 不 总 是 遵循 Allen 的 命名 。 我 们 会 用 含义 相同 但 更 简洁 的 术语 来 表述 这 些 操作 符 ， 但 为 了 
更 直观 地 理解 它们 ， 你 可 能 要 试 着 画 一 些 图 。 

wm 相等 (=): (i =i2) = (bl =b2 AND el =e2) 

包含 〈 了 2 ) 和 包含 于 (C5); (i12i2) = (bl <b2 AND el>e2); (PEGEU) = (i122) 

a 完全 包含 〈2D ) 和 完全 包含 于 (C): (i D2) = (i12i2 AND i #2); (i2Cil) = 
(i1 Di2) 

s BEFORE 和 AFTER: (i] BEFORE i2) = (el < b2); (il AFTER 2) = (i2 BERORE 
这) 

um MEETS: (i! MEETS i2) = (1 =el+1ORb =c2+l) 

mu OVERLAPS. (il OVERLAPS i2) = (b] <e? AND b2<el) 

sm MERGES: (il MERGES i2) = (il OVERLAPS i2 OR i] MEETS 2) 

m BEGINS. (il BEGINS i2) = (bl =b2 AND el <e?) 

a ENDS: (il ENDS i2) = (el =e2 AND bl>b2) 

最 后 ， 我 们 定义 一 些 区 间 上 有 用 的 二 元 操作 符 ， 它 们 的 返回 值 都 是 区 间 : 称 为 类 似 操作 符 
UNION 、INTERSECT 和 MINUS 的 区 间 版 本 。 每 种 操作 符 都 以 两 个 同类 型 的 区 间 为 操作 数 ， 返 
回 同类 型 的 另 一 个 区 间作 为 结果 (这 里 我 们 举 一 些 例子 )。 

em UNION; 证 UNION i2 ， 如 果 已 MERGES i2 为 真 ， 则 返回 [MIN (bl, b2); MAX (el， 
62) ]; 否则 返回 未 定义 。 比 如 ， [4d04: d08] 和 [d06: d10] 的 并 集 返 回 值 为 [d04: 
d10]; [d02; 4d03] 和 [d6: d10] 的 并 集 返 回 值 为 未 定义 。 

和 INTERSECT: i] INTERSECT i2， 如 果 i OVERLAPS 记 为 真 ， 则 返回 [MAX (bl]，b2): 
MIN (el ，e2)]; 否则 返回 未 定义 。 比 如 ，[d04: d08] 和 [d06: d10] 的 交集 返回 值 为 
[d06: d08]; [d02: d03] 和 [d06: d10] 的 交集 返回 值 为 未 定义 。 

m MINUS: i] MINUS i2， 如 果 bl < b2 和 el <e2 都 为 真 ， 则 返回 [bl: MIN (4b2 - 1， 
el ) ]; 如 果 反之 b2 和 el >e2 都 为 真 ， 则 返回 [MAX (e2+]，b1): el]; 否则 返回 未 定 
义 。 比 如 ，[d04: d08] 和 [do6: d10] (按照 这 个 顺序 ) 的 差 .返回 值 为 【d04: d05 ] ; 
[do6: d10] 和 [d04: d08] (按照 这 个 顺序 ) 的 差 ， 返回 值 为 [d09g: d101; [{d02: 
d03] 和 [4d06: d10] 的 差 ， 返回 值 为 未 定义 。 

2. 查询 示例 

下 面 以 一 些 查询 示例 来 结束 这 一 节 ， 举 例 说 明 前 面 定义 的 某 些 操作 符 的 用 法 。 首 先 ， 第 一 个 
例子 是 考虑 一 个 查询 “取得 能 够 在 日 期 8 供应 零件 P2 的 供应 商 数目 " 。 下 面 是 在 图 23-4 的 数据 
库 上 ， 该 查询 的 一 个 可 能 的 表达 方式 : 

( SP DURING WHERE P# = P# ('P2') 

AND d08 € DURING ) { S# } 
说 明 ; 外 面 括号 里 的 表达 式 ， 把 出 现在 关系 变量 SP_DURING 中 的 元 组 集合 ， 限 定 为 那些 P# 的 
值 为 P2 且 时 间 区 间 DURING 的 值 里 包含 了 日 期 8 的 元 组 。 接 下 来 ， 这 些 元 组 的 集合 投影 到 属性 
S# 上 得 到 所 要 求 的 结果 。 注 意 : 实际 上 ， 表 达 式 中 的 d08 可 以 替换 为 一 个 合适 的 DATE 选择 子 。 
第 二 个 例子 是 查询 “取得 能 够 在 同一 时 间 供 应 同 种 零件 的 供应 商 对 ”的 一 个 可 能 的 表达 方式 : 
WITH ( SP DURING RENAME ( S# AS X#, DURING AS XD ) ) AS T1 ， 
( SP _DURING RENAME { S# AS Y#, DURING AS YD ) ) AS T2 ， 
{ Tl “JOIN T2 ) AS T3 
( T3 WHERE XD OVERLAPS YD )， _AS 了 4 ， 
{ TA WHERE X# < Y# ) RS T5 

T5 { X#, Y# } 

说 明 : Tl 是 关系 变量 SP_DURING 的 当前 关系 值 ， 只 有 一 点 不 同 ， 就 是 将 属性 S# 和 DURING 分 
别 重 命名 为 X# 和 XD; 关系 T2 也 是 一 样 ， 只 是 新 的 属性 名 是 Y# 和 YD。 关 系 13 是 TI 和 T2 在 
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零件 号 上 的 连接 。 关 系 T4 是 将 T3 限制 为 XD 和 YD 区 间 重生 的 那些 元 组 (表示 供应 商 不 仅 要 能 
够 提供 相同 的 零件 ， 而 且 要 按照 要 求 ， 能 够 在 相同 的 时 间 提 供 同 种 零件 )。 关 系 T5 是 将 T4 限制 
为 供应 商号 X# 小 于 Y# 的 那些 元 组 〈 比较 第 7 章 的 例子 7. 5. 5) 。 最 后 通过 在 X# 和 Y# 上 进行 投影 
得 到 要 求 的 结果 。 

第 三 个 例子 ， 假 设 我 们 不 止 要 查询 能 够 在 同一 时 间 供 应 同 种 零件 的 供应 商 对 ， 还 要 知道 是 何 
种 零件 和 时 间 。 下 面 是 一 个 可 能 的 表达 方式 : 


WITH ( SP DURING RENAME ( S# AS X#, DURING RS XD ) ) AS T1 ， 
( SP DURING RENAME ( S# AS Y#，DURING AS YD ) ) AS T2 ， 
( Tl JOIN T2 ) AS T3 ， 
( T3 WHERE XD OVERLAPS sD ) AS T4 ， 
( T4 WHERE X# < Y# ) AS TS 
{ EXTEND T5 ADD ( XD INTERSEcT YD ) AS DURING ) AS 76 : 
T6 { X#, Y#, P#, DURING } 


说 明 : 关系 T1、T2、T3、T4 和 1T5 与 前 面 的 例子 相同 。 接 下 来 的 EXTEND 计算 相应 的 时 间 区 
间 ， 最 后 进行 投影 得 到 要 求 的 结果 。 


23.4 归并 和 反 归 并 关系 


本 节 我 们 介绍 两 种 新 的 (而 且 是 非常 重要 的 ) 关系 操作 符 ， 归 并 (PACK) 和 反 归 并 (UN- 
PACK) 。 而 作为 这 两 种 操作 符 的 基础 ， 我 们 首先 需要 离开 主题 讨论 一 下 两 个 它们 的 简单 版 本 ， 
分 别称 为 压缩 (COLLAPSE) 和 扩展 (EXPAND) 。 另 外 ， 为 便于 描述 ， 后 面 的 会 按照 相反 的 顺 
序 讨 论 这 两 个 简单 版 本 的 操作 符 。 

1. EXPAND 和 COLLAPSE 

这 里 描述 的 EXPAND 和 COLLAPSE? 都 只 有 一 个 操作 数 ， 且 操作 数 是 一 个 元 组 中 含有 区 间 
的 一 元 关系 ， 而 产生 的 结果 是 另 一 个 同样 类 型 的 关系 。 例 如 ， 假 设 关系 如 下 : 


{406:d09] 


[d04:d08] 
[d05:d10] 
[d01:d01] 





则 EXPAND > 和 COLLAPSE r 产生 的 结果 如 下 ， 


EXPAND r COLLAPSE r 


Durie | [oorme | 
[d01:d01] [ad01:d011] 
[da04:d04 ] [da04:d101] 
[d05:d05] 
[d06:d06] 
[do7:d07] 
[d08:d081] 
[ad09:d09 ] 
{d10:d10] 












说 明 ; 一 元 关系 + 有 唯一 的 属性 DURING， 且 DURING 是 区 间 值 。 则 ~ 的 扩展 和 压缩 形式 都 
是 与 7 同 种 类 型 的 一 元 关系 ， 定 义 如 下 : 
s 扩展 形式 是 一 个 关系 rx， 它 是 由 且 仅 由 形 如 [p: p]、 包 含 了 一 个 单位 区 间 的 元 组 组 成 
的 ， 其 中 bp 是 7 中 某 一 元 组 的 某 一 区 间 里 的 一 点 : 
sr 的 压缩 形式 是 满足 下 列 条 件 的 关系 rc: 
1) 关系 r 和 rc 有 相同 的 扩展 形式 。 
2) rc 中 任意 两 个 不 同 元 组 ， 它 们 各 自 的 区 间 为 i 和 认 , i MERGES i2 都 为 假 。 同 样 ，rc 中 





”这 两 个 操作 符 更 普遍 的 形式 在 参考 文献 [23.4] 中 有 描述 。 
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任意 两 个 不 同 元 组 ， 它 们 各自 的 区 间 和 记 ，i UNION i2 都 是 未 定义 的 。( 由 此 得 出 结论 ，rc 
可 以 通过 > 计算 出 来 ， 方 法 就 是 将 了 中 的 元 组 对 站 和 如 替换 为 一 个 元 组 :， 其 中 :包含 了 tH 和 忆 
区 间 的 并 集 ， 替 换 一 直 进行 到 不 会 再 发 生 此 种 替换 为 止 。) 
现在 我 们 进一步 看 一 下 这 些 概念 。 为 了 简便 起 见 ， 假 设 在 本 小 节 的 剩余 部 分 中 ， 处 理 的 关系 
都 是 元 组 中 包含 区 间 的 一 元 关系 。 下 面 我 们 定义 一 个 重要 的 概念 等 价 〈equivalence ) : 
se 两 个 关系 rl 和 ;2 是 等 价 的 ， 当 且 仅 当 rl 中 元 组 的 区 间 包 含 的 所 有 点 ， 与 之 中 元 组 的 区 
间 包 含 的 所 有 点 相等 。 
有 了 这 个 定义 以 及 前 面 关于 扩展 和 压缩 形式 的 定义 ， 下 面 几 点 就 是 很 清楚 了 : 
se 对 任意 给 定 的 一 个 关系 +， 总 是 存在 r 的 相应 的 扩展 形式 。 
me 这 一 扩展 形式 与 > 是 等 价 的 。 事 实 上 可 以 这 样 说 ， 两 个 关系 是 等 价 的 ， 当 且 仅 当 它们 有 相 
同 的 扩展 形式 。 
am 扩展 形式 是 唯一 的 。 准 确 地 说 ， 它 是 区 间 所 有 最 小 可 能 长 度 的 唯一 等 价 关 系 。 
= 直观 上 ,7 的 扩展 形式 使 我 们 将 注意 力 集中 在 7 原子 层 的 信息 内 容 上 ， 而 不 必 理 会 信息 可 
能 通过 很 多 种 方式 集合 成 “ 簇 ”。 
am 如 果 是 空 的 ， 则 ~ 的 扩展 形式 也 是 空 的 。 
同样 : 
sm 对 任意 给 定 的 一 个 关系 ">， 总 是 存在 了 的 相应 的 压缩 形式 。 
ma 这 一 压缩 形式 与 > 是 等 价 的 。 事 实 上 可 以 这 样 说 ， 两 个 关系 是 等 价 的 ， 当 且 仅 当 它们 有 相 
同 的 压缩 形式 。 | 
as 压缩 形式 是 唯一 的 ; 准确 地 说 ， 它 是 拥有 最 小 可 能 集 的 基数 的 唯一 等 价 关系 。 
m 直观 上 ，r 的 压缩 形式 使 我 们 将 注意 力 集中 在 了 压缩 (“ 焦 的 " ) 形式 的 信息 内 容 上 ， 而 不 
必 理 会 不 同 的 “ 复 ” 可 能 邻接 或 者 重 委 。 
ae 如果 了 是 空 的 ， 则 ~ 的 压缩 形式 也 是 空 的 。 
顺便 说 一 句 ， 不 要 错误 地 认为 EXPAND 和 COLLAPSE 是 彼此 的 道 过 程 。 实 际 上 ， 无 论 EX- 
PAND (COLLAPSE r) 还 是 COLLAPSE (EXPAND r) ,通常 都 与 是 相等 的 (同样 它们 与 "是 
等 价 的 ) 。 下 面 的 恒等式 是 显而易见 的 : 


EXPAND ( COLLAPSE r ) 里 EXPAND r 
司 COLLAPSE ( EXPAND r ) 要 COLLAPSE I 


由 此 得 出 结论 ， 在 某 一 关系 r+ 上 的 操作 序列 “ 先 压缩 后 扩展 ”、 或 者 “ 先 扩 展 后 压缩 ”"， 其 
中 的 第 一 个 操作 可 以 被 简单 忽略 掉 ， 这 一 事实 对 于 优化 目标 是 很 有 用 的 (尤其 当 第 一 个 操作 是 
EXPAND 的 时 候 ) 。 
以 下 是 本 小 节 结束 前 的 最 后 两 点 : 
a 文献 [23.4] 表明 ，EXPAND 和 COLLAPSE 都 可 以 通过 关系 代数 中 已 有 的 操作 符 来 定 
义 。 换 名 话说， 它们 都 是 速记 。 
s 文献 [23.4] 还 表明 ,在 空 (nullary) 关系 而 不 是 一 元 关系 上 定义 EXPAND 和 COL- 
LAPSE 操作 符 ， 是 非常 有 意义 的 。 此 处 我 们 忽略 细节 分 析 ， 而 只 进行 简单 定义 : 如 果 7 是 
一 个 空 关 系 ， 则 EXPAND r 和 COLLAPSE r 都 返回 r。 同 时 定义 两 个 空 关 系 是 等 价 的 ， 当 
且 仅 当 它 们 相等 。 
2. 归并 和 反 归 并 
归并 和 反 归并 的 最 普遍 形式 都 是 只 有 一 个 操作 数 ， 此 操作 数 为 一 个 n 元 关系 ， 其 中 的 一 个 属 
性 是 区 间 值 ， 最 后 产生 的 结果 是 另 一 个 同 种 关系 。 例 如 ， 假 设 关系 了 如 下 : 


Ls# [PorING | 


[ad02:d04] 
[ad03:d05] 
[ad02:d05] 
[d04:d06] 
fd09:G10] 
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那么 PACK r ON DURING 和 UNPACK r ON DURING 生成 的 结果 如 下 : 





PACK r ON DURING UNPACK r ON DURING 
| S# | DURING DURING 













S2 | [d02:d05] 
s4 | [do2:d06] 
Ss4 | [d09:d10] 








[906:d06] 
{d09:d09] 
[d10:d10] 





可 以 观察 到 ， 在 非 正 式 的 情况 下 ， 每 个 结果 都 表示 了 与 原 关 系 + 相同 的 信息 ,但 是 : 
m 在 PACK 的 情况 下 ,信息 按照 以 下 这 种 方式 重新 排列 : 一 个 给 定 的 供应 商 的 任意 两 个 
DURING 值 都 不 会 邻接 或 者 重合 。 

sa 在 UNPACK 的 情况 下 ， 信 息 按照 以 下 这 种 方式 重新 排列 : 每 个 DURING 值 (一 个 给 定 的 

供应 商 的 DURING 区 间 更 是 如 此 ) 都 是 一 个 特定 的 单位 区 间 。 

COLLAPSE 和 EXPAND 与 PACK 和 UNPACK 操作 的 关系 是 显而易见 的 。 另 一 件 显而易见 的 
事情 是 ， 在 某 种 特定 意义 上 (在 本 节 的 最 后 ， 我 们 会 准确 说 明 这 个 意义 ) ， 原 关系 了 与 对 应 的 归 
并 和 反 归 并 形式 都 是 等 价 的 。 

现在 我 们 集中 看 一 下 PACK。 首 先是 查询 4 根据 图 23-4 所 示 的 数据 库 的 再 声明 ; 

a 查询 4: 取得 至 少 在 某 一 个 时 间 区 间 里 可 以 供应 至 少 一 种 零件 的 供应 商 的 属性 对 S#-DUR- 

ING， 其 中 DURING 指明 了 这 样 的 一 个 区 间 。 

给 定 图 23-4 的 示例 数据 ， 要 求 的 结果 如 下 : 


SF DORING — 


1d04:d10] 
[da02:d04] 
{908:d10] 
{d08:d10] 
[d04:d10] 


这 个 关系 是 关系 变量 SP 在 DURING 上 的 归并 形式 的 某 个 投影 ， 称 为 在 S# 和 DURING 上 的 投影 。 
并 且 ， 我 们 最 终 可 以 通过 一 个 简单 的 表达 形式 得 到 这 一 结果 : 

PACK T1 ON DURING 
其 中 Tl 是 指定 的 投影 。 但 是 ， 我 们 需要 逐步 达到 这 个 目标 。 第 一 步 是 : 

WITH SP, DURING { S#, DURING } AS TI : 
这 步 是 生成 要 求 的 投影 ( 它 只 是 “投影 掉 ” 与 查询 不 相关 的 零件 号 ) 。 根 据 示 例 数据 值 ，Tl 
如 下 : 
rT Doniwe 
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这 个 关系 包含 了 元 余 信息 ; 比如， 供应 商 S1 在 日 期 6 这 天 提供 某 些 东西 ， 这 件 事 我 们 至 少 被 告 
知 了 三 次 〈 约 东 下 的 结果 不 能 包含 这 样 的 元 余 ) 。 


下 一 步 如 下 : 
WITH ( T1 GROUP { DURING } AS X ) RS T2 : 
T2 如 下 : 








DURING 


[d04:d10] 
[d05:d10] 
[d09:d10] 
{d06:d10] 


DURING 


[4d02:d04] 
[d08:d10] 
[d03:d03]j 
[do9:d10) 


[d08:d10] 


DURING 


{d06:d09] 
[d04:d08] 


[905:d10) 





T2 的 属性 X 是 关系 值 (relation-valued) ， 因 此 我 们 可 以 将 COLLAPSE 操作 符 应 用 到 这 个 属性 值 
的 一 元 关系 上 : 


WITH ( EXTEND ?2 ADD COLLAPSE ( X ) RS Y ) 
{ ALL BUT X } AS T3 : 


T3 如 下 (由 于 说 明 “ALL BUT X"” ， 属 性 X 已 经 通过 投影 去 除了 ) ; 














fd0o4:d10] 
[d02:d04] 
fd08:d101 
[d08:d10] 


fd04:dad101] 


最 后 ， 撤 消 分 组 : 


T3 UNGROUP Y 


上 面 的 表达 式 产生 所 需 的 结果 。 换 名 话说， 现在 将 所 有 步骤 归并 在 一 起 〈 经 过 稍 许 简化 ) ， 通 过 
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计算 下 面 全 部 表达 式 来 得 到 结果 : 


WITH SP_DURING { S#, DURING } AS T1 ， 

( Tl GROUP { DURING } AS X ) AS T2 ， 

( EXTEND T2 ADD COLLAPSE ( X ) RS Y ) {ALL BUT X ) AS T3 : 
T3 UNGROUP Y 


现在 可 以 定义 PACK 操作 符 ( 当然 是 速记 ) 。 语 法 如 下 : 


PACK r ON A 


这 里 7 是 一 个 关系 表达 式 ，A 是 表达 式 指 定 的 关系 的 一 个 区 间 属 性 。 此 操作 符 的 语义 是 通过 分 
组 、 扩 展 、 投 影 和 逆 分 组 操作 来 定义 的 ， 并 通过 它 从 TI 上 得 到 结果 : 


PRCK r ONA ss WITH ( r GROUP { A } RSX ) AS RI 
( EXTEND RI ADD COLLAPSE ( X ) A ) 
{ ALL BUT X ) ks R2 : 
R2 UNGROUP Y 


如 早 前 提 到 的 那样 ， 查 询 A 可 表示 为 ， 


PACK SP_DURING { S#, DURING } ON DURING 


注意 ; 从 定义 可 以 清楚 地 看 出 ， 在 某 个 属性 4 上 归并 一 个 关系 包括 了 将 关系 按照 除了 A 以 
外 的 其 他 所 有 属性 分 组 这 一 过 程 。( 回顾 第 7 章 ， 表 达 式 “TI GROUP | DURING| …” 可 读 作 
“Tl 按 S# 分 组 ”，S# 是 除了 GROUP 子 句 中 提 到 的 属性 之 外 的 所 有 其 他 属性 。) 但 需要 注意 的 是 ， 
r GROUP {4A| … 对 每 个 不 同 值 的 8 (已 是 > 中 除了 4 以 外 的 所 有 属性 ) ， 确 保 只 返回 一 个 元 组 作 
为 结果 ，PACK r ON 4 对 任意 给 定 的 B 值 可 能 返回 几 个 元 组 作为 结果 。 举 例 来 说 ， 查 询 A 进行 
PACK 操作 的 结果 中 ， 供 应 商 S4 有 两 个 元 组 。 

现在 来 看 看 UNPACK 和 查询 B: 

em 查询 B: 取得 至 少 在 某 一 个 时 间 区 间 内 不 能 供应 任何 零件 的 供应 商 的 属性 对 S#-DURING， 

其 中 DURING 指明 了 这 样 的 一 个 区 间 。 
现在 可 以 看 出 来 我 们 需要 做 的 ， 从 本 质 上 来 说 就 是 查找 这 样 的 一 些 S#DURING 属性 对 : 出 现 、 
或 者 没有 出 现 而 被 S_DURING 暗 指 ， 以 及 没有 被 SP_DURING 暗 指 。 这 一 简要 的 描述 足以 恰当 
地 说 明 ， 本 质 上 我 们 需要 做 的 就 是 ， 执 行 两 个 反 归 并 操作 ， 比 较 结果 的 不 同 ， 对 不 同 之 处 进行 再 
归并 。 所 以 我 们 首先 介绍 一 下 UNPACK 操作 符 : 


UNPRCK r ON A 至 WITH ( r GROUP {A} ASX ) RS Rl 
{ EXTEND RI1 ADD EXPAND ( X ) As Y ) 
{ ALL BUT X } AS R2 : 
R2 UNGROUP Y 

这 个 定义 与 PACK 的 定义 是 相同 的 ， 除 了 在 第 二 行 中 出 现 的 是 EXPAND 而 非 COLLAPSE。 我 们 
把 这 一 表达 式 的 结果 称 为 关系 上 在 4 上 的 反 归 并 形式 。 

因此 ， 关 于 查询 B， 可 以 得 到 需要 的 左 操作 数 ( 即 出 现 的 ， 或 者 被 S_ DURING 暗 指 的 S#- 
DURING 属性 对 ) 如 下 : 


UNPACK S DURING { S#, DURING } ON DURING 


下 面 是 该 表达 式 的 扩展 形式 : 


WITH S_DURING { S#, DURING } AS T1 ， 

( TI GROUP { DURING } AS X ) AS T2 

( EXTEND T2 ADD EXPAND (X ) AS Y ) | ALL BUT X } AS T3 ; 
T3 UNGROUP Y 


一 步 步 详细 地 做 完 这 个 表达 式 ， 这 项 工作 留 作 练习 。 而 对 于 给 定 的 图 23-4 的 示例 数据 ， 完 整 的 
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ECE 


[d04:d04] 
[d05:d05] 
[906:d06] 
[d07:d07] 
[908:d08] 
[d09:d09] 
[qd10:910] 
[d02 :d02 ] 
[d03:d03] 
[do4:d04] 
[d07:d07] 
[do08:d08] 
[Q09:d09] 
[d10:d10] 
[903:d03] 
{904:904] 
[d05:d05] 
[d06:d06] 
[{d07:d07] 
[do8:d08] 
[d09:d09] 
[gd10:d10] 
[d04:d04] 
[G05:d05] 
{906:d06] 
{d07:d071 
[d08:d08] 
[d09:d09] 
[910:910] 
[do2 :d021] 
{4d03:d03] 
[do4:d04 ] 
[ad05:d05] 
[d06:d06] 
[d07:d07] 
[G08:d08) 
[d09:d09] 
[d10:910] 


当然 ， 获 得 右 操作 数 〈 即 出 现 的 ， 或 者 被 SP_DURING 暗 指 的 S#-DURING 属性 对 ) 用 的 是 
相似 方式 : 


UNPACK SP DURING { S#, DURING } ON DURING 


这 一 表达 式 的 结果 一 一 称 为 U2 一 一 如 下 : 


DURING 


{d04:d04] 
{ad05:905] 
[d06:d06] 
Ss1 | {fd07:d07] 
S1 | [da08:d08] 
S1 | [do9g:d09] 
S1 | [d10:910] 
S2 | [gd02:d02] 
Ss2 | [d03:d03] 
S2 | [gd04:d04] 
$2 | [d08:d08] 
S2 | [d09:d09] 
S2 | [al10:d10] 
S3 | [do08:d081] 
S3 | [do0g:a09] 
S3 | [d10:d10] 
S4 | [d04:d04] 
S4 | [d05:d05] 
S4 | [d06:d06] 
S4 | [do07:d07] 
Ss4 | [gd08:d08]} 
$4 | [d09:d09] 
s4 | [d10:d10] 
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现在 可 以 应 用 求 差 操作 符 : 


Ul MINUS U2 


这 一 表达 式 的 结果 ， 设 为 U3， 如 下 : 
EE 


S2 















[d10:d10] 


最 后 ， 归 并 U3 得 到 想 要 的 完整 结果 : 


PACK U3 ON DURING 
最 终结 果 如 下 : 


S# | DURING 


Ss2 | {d07:d07] 
s3 | [qd03:d071 
s5 | [d02:d10] 


下 面 是 查询 有 作为 单独 一 个 表达 式 的 公式 表示 : 


PA 












Co UNPACK S_DURING { S#, DURING } ON DURING ) 
MUNPACK SP_DURING { S#, DURING } ON DURING ) ) 

ON DURING 
可 以 观察 到 , 在 4 上 反 归 并 > (如 同 在 A 上 归并 r) 包括 了 将 关系 上 按照 除了 4 以 外 的 其 他 所 有 
属性 分 组 这 一 过 程 。 

就 像 作 为 其 基础 的 COLLAPSE 和 EXPAND 操作 符 一 样 ，PACK 和 UNPACK 并 不 是 彼此 的 逆 
过 程 。 也 就 是 说 ， 无 论 UNPACK (PACK ON 4) ON 4, 还 是 PACK (UNPACK r ON 4) ON 
A， 通 常 都 与 + 是 相等 的 (尽管 它们 与 7 是 等 价 的 ， 但 在 某 种 意义 下 还 是 需要 解释 一 下 ) 。 下 面 的 
恒等式 是 显而易见 的 : 


UNPACK r ON A ss UNPACK ( PACK r ON A ) ON A 
PACK rr ONA 本 PACK ( UNPACK r ON A ) ON A 


由 此 得 出 结论 ， 在 某 一 给 定 关系 上 的 操作 序列 妇 并 - 反 归 并 或 者 反 归 并 - 归并， 其 中 的 第 一 个 操 
作 可 以 被 简单 忽略 掉 ， 这 一 事实 对 于 优化 目标 是 很 有 用 的 〈 尤 其 当 第 一 个 操作 是 UNPACK 的 
时 候 ) 。 

3. 更 多 例子 

下 面 给 出 一 些 关 于 PACK 和 UNPACK 在 查询 中 使 用 的 例子 。 我 们 进行 合理 地 假设 ， 每 种 情 
况 下 要 求 的 结果 都 是 归并 形式 的 。 

第 一 个 是 一 个 非 时 态 的 例子 。 给 定 一 个 关系 变量 NHW， 属 性 有 NAME、HEIGHT 和 
WEIGHT， 表 示 了 一 个 人 的 身高 和 体重 。 考 虑 查询 “对 于 NHW 中 的 每 一 个 体重 值 ， 查 询 符合 
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以 下 条 件 的 身高 范围 : 该 范围 中 至 少 存在 一 个 人 ， 他 的 体重 等 于 此 体重 值 。” 下 面 是 一 种 公 
式 表示 : 


PACK 
{ ( EXTEND NHW { HEIGHT, WEIGHT } 
ADD INTERVAL HEIGHT ( [ HEIGHT ， HEIGHT ] ) AS HR ) 
{ WEIGHT, HR } ) 
ON HR 


说 明 : 首先 将 NHW 映射 到 HEIGHT 和 WEIGHT 上 ， 从 而 获得 原 关系 上 的 所 有 身高 - 体重 对 
( 即 至 少 有 一 个 人 符合 这 样 的 身高 体重 的 身高 - 体重 对 ) 。 接 下 来 通过 引 人 另 一 个 属性 HR 来 扩展 
映射 ,任意 元 组 的 HR 值 是 一 个 形 如 [h: h] 的 单元 区 间 ， 其 中 是 该 元 组 的 HEIGHT 值 ( 注 
意 区 间 选 择 符 INTERVAL_HEIGHT) 。 接 着 映射 去 掉 HEIGHT 属性 并 将 结果 归并 到 HR 上 。 最 终 
的 结果 是 一 个 有 两 个 属性 ，WEIGHT 和 HR 的 关系 ， 谓 词语 义 如 下 : 
对 HR 中 的 所 有 身高 h 一 一 但 不 是 hh=PRE (HR) 或 者 h=POST (HR) 一 一 至 少 存 在 一 个 
人 pp， 满足 pp 的 体重 是 WEIGHT， 身 高 是 hh。 
第 二 个 例子 ， 再 次 考虑 关系 变量 SP_DURING。 假设 在 任意 时 间 ， 如 果 有 发 货 记录 ， 那 么 一 定 存 
在 某 一 零件 号 pmax 满足 以 下 要 求 : 在 这 一 时 间 ， 任 何 供应 商都 无 法 提供 零件 号 大 于 pmax 的 零 
件 。( 显然 这 里 假设 运算 符 “ > ”对 类 型 为 P# 的 数值 是 有 意义 的 。) 所 以 ， 考 虑 查询 “对 于 每 一 
个 曾经 成 为 pmax 值 的 零件 号 ， 查 询 所 有 这 样 的 零件 号 以 及 它 作 为 pmax 值 的 那个 区 间 。” 下 面 是 
一 个 可 能 的 公式 表示 : 
WITH ( UNPACK SP_DURING ON DURING ) RS SP_UNPACKED 了 
( SUMMARIZE SP_UNPACKED 
BY { DURING } 
RDD MAX ( P# ) RS PMAX ) AS SUMMARY : 
PACK SUMMARY ON DURING 
4. 备注 
关于 归并 和 反 归 并 有 太 多 的 内 容 ， 远 非 本 章 的 篇 幅 所 能 容纳 。 详 细 的 讨论 参见 文献 
[23.4]; 这 里 我 们 只 列 出 最 重要 的 几 点 ， 而 不 加 以 证 明 或 做 更 深层 次 的 解释 。 
s 不 在 任何 一 个 属性 上 做 归并 或 反 归 并 一 个 关系 了 的 操作 ， 简 单 返回 r。 
ua 在 两 个 或 两 个 以 上 区 间 类 型 的 属性 ? 上 反 归 并 一 个 关系 是 简单 直接 的 ; 如 果 这 些 属 性 是 
41，42，…，4n 〔〈 按 照 某 个 顺序 ) ， 那 么 可 以 通过 以 下 方式 得 到 结果 : 在 41 上 反 归 并 ~， 
接着 在 42 上 反 归 并 第 一 次 反 归并 得 到 的 结果 ，…， 最 后 在 An 上 反 归 并 倒数 第 二 次 反 归 并 
得 到 的 结果 。 
s 在 两 个 或 两 个 以 上 区 间 类 型 的 属性 上 归并 一 个 关系 + 并 不 是 简单 直接 的 。 然 而 ， 一般 的 ， 
如 果 这 些 属性 是 A1 ，42 ，…，An (按照 某 个 顺序 ) ， 那 么 可 以 通过 以 下 方式 得 到 结果 : 
首先 在 所 有 这 些 属性 上 反 妇 并 >， 接 着 在 41 上 归并 反 归 并 的 结果 ， 在 42 上 归并 第 一 次 归 
并 的 结果 ，…， 最 后 在 An 上 归并 倒数 第 二 次 归并 得 到 的 结果 。 
gs 设 才 和 驴 是 同类 型 的 关系 ， 它们 的 属性 41 ，42 ，…，4m 是 区 间 类 型 的 值 。 则 rl 和 马 是 
等 价 的 〈 关 于 属性 4 ，42，…，4n) ， 当 且 仅 当 UNPACK rl ON (41，42，…，4n) 的 
结果 与 UNPACK 2 ON (41，42 ，…，4n) 的 结果 相等 。 


23.5 关系 操作 符 推广 
23. 4 节 提 到 过 查询 B 的 公式 表示 : 


PACK 
( ( UNPACK S_ DURING { S#, DURING } ON DURING ) 
MI 


N 
{ UNPACK SP_DURING { S#, DURING } ON DURING ) ) 
ON DURING 





”注意 这 里 暗示 了 一 个 关系 有 两 个 或 两 个 以 上 区 间 类 型 的 属性 是 完全 可 以 的 。 
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像 这 样 的 表达 式 ， 包 括 两 个 反 归 并 操作 ， 跟 着 是 一 个 规则 的 关系 操作 ， 然 后 是 一 个 重 归并 操 
作 ， 这 样 的 表达 式 在 实际 中 是 要 经 常用 到 的 ， 因 此 为 它们 定义 一 个 速记 符号 也 是 很 值得 的 (是 
进一步 的 速记 表示 ， 就 我 们 所 知 ， 它 们 基本 上 已 经 算是 速记 符号 化 了 ) 。 当 然 这 样 的 速记 符号 化 
会 省 略 很 多 的 笔墨 。 另 外 它 也 提供 了 改进 性 能 的 机 会 ， 当 包 含 了 细 粒 度 的 长 区 间 时 ， 一 个 反 归 并 
操作 的 输出 与 它 的 输入 相 比 可 能 会 非常 大 ; 如 果 系 统 要 物化 这 样 一 个 反 归 并 操作 的 结果 ， 那 么 查 
询 可 能 会 发 生死 循环 或 者 内 存 溢出 。 相 比 而 言 ， 将 整个 需求 表示 成 一 个 单独 的 操作 可 以 允许 优化 
器 选择 一 个 更 有 效 的 执行 方案 ， 不 再 要 求 物化 反 归 并 操作 的 中 间 结 果 。 

根据 前 面 的 想法 ， 我 们 定义 表达 式 


USING ( ACL ) 4 rl MINUS r2 » 


作为 以 下 表达 式 的 速记 : 

PACK 

( ( UNPACK rl ON ( ACL ) ) MINUS ( UNPACK r2 ON ( ACL ) ) ) 

ON ( ACL ) 
这 里 六 和 忆 是 相同 类 型 关系 的 关系 表达 式 ，4CL 是 属性 名 的 列表 ， 其 中 每 一 个 属性 (1) 都 是 
某 种 区 间 类 型 的 ，(2) 都 出 现在 两 个 关系 中 。 要 点 : 

1) 除非 另行 声明 ， 我 们 提 到 的 操作 符 指 的 是 “U_difference” (U 表示 USING ) ,或 者 简写 
为 U_MINUS 。 

2) 如 果 属 性 名 列表 只 包含 了 一 个 属性 名 ， 则 在 USING 说 明 中 用 来 括 起 属性 名 的 括号 可 以 省 
路 掉 。 注 意 : 这 一 说 明 适 用 于 将 要 定义 的 所 有 “U_” 的 速记 ， 后 面 将 不 会 每 次 都 重申 这 点 。 

3) 本 节 中 USING 说 明 出 现 的 上 下 文中 ， 使 用 者 和 来 把 表达 式 和 USING 说 明 应 用 划分 开 。 

4) 与 规则 的 MINUS 操作 符 不 同 ，U_MINUS 产生 的 结果 集 的 基数 可 能 会 大 于 它 的 左 操作 
数 。 比 如 ,， 设 乙 和 冯 如 下 : 


rl r2 
[d02:d04 ] [da03 :ad031] 


则 USING A rl MINUS r2 因 得 到 的 结果 是 : 

[和 

[1d02:d02) 

说 了 这 么 多 关于 U_MINUS ， 现 在 可 以 很 清楚 地 知道 ， 所 有 规则 的 关系 操作 符 都 可 以 定义 它 
们 的 “U_” 版 本 (参考 文献 [23.4] 也 确实 是 这 样 做 的 ) 。 然 而 由 于 篇 幅 的 限制 ， 这 里 只 限于 


那些 最 有 用 的 操作 符 ，( 除 了 U_MINUS 之 外 ) U_UNION，U_INTERSECT，U_JOIN 以 及 U_pro- 
ject。U_UNION 和 U_INTERSECT 遵循 了 与 U_MINUS 相同 的 通用 模式 ; 即 表 达 式 


USING ( ACT ) 4 rl op F2 


(其 中 op 是 UNION 或 者 INTERSECT，ACL、rl 和 2 的 含义 与 U_MINUS 中 的 相同 ) 是 以 下 表 
达 式 的 速记 : 
PACK 


( ( UNPACK rl ON ( ACL ) ) op ( UNPACK r2 ON ( ACL ) ) ) 
ON ( ACL ) 


我 们 注意 到 ， 在 U_UNION 的 情况 下 ， 没 有 必要 执行 开始 的 UNPACK 操作 。 即 U_UNION 的 
展开 形式 可 以 进一步 缩写 为 : 


PACK {( rl UNION r2 ) ON ( ACL ) 





不 难看 出 为 什么 这 一 简化 是 可 能 的 ， 但 如 果 需 要 证 明 它 是 合法 有 效 的 ， 还 可 以 试 着 通过 一 个 例子 
来 证 明 。( 事实 上 ， 对 于 其 他 一 些 “U_” 操 作 符 ， 相 似 的 简化 同样 是 可 能 的 ， 但 细节 已 经 超出 了 
本 章 的 范围 。) 

另外 ， 就 像 U_MINUS 可 能 增加 结果 集 的 基数 一 样 〈 不 严格 地 说 ) ，U_UNION 可 能 降低 它 ; 
实际 上 ，U_UNION 产生 的 结果 集 的 基数 可 能 比 它 的 两 个 操作 数 都 要 小 〈 证 明 留 给 读者 作为 习 
题 ) 。 同 样 ，U_INTERSECT 产生 的 结果 集 的 基数 可 能 比 它 的 两 个 操作 数 都 要 大 (作为 习题 
证 明 ) 。 

现在 我 们 来 看 一 下 U_JOIN ， 定 义 表 达 式 


USING ( ACL ) < rl JOIN r2 > 
作为 以 下 表达 式 的 速记 : 


PACK 
( ( UNPACK rl ON ( ACE ) ) JOIN ( UNPACK r2 ON ( ACL ) ) ) 
ON ( ACL ) 


ACL 中 的 每 个 属性 必须 是 某 种 区 间 类 型 ， 而 且 必 须 同时 出 现在 rl 和 马 中 (所 以 连接 是 在 ACL 中 
涉及 的 所 有 属性 上 进行 的 ) 。 注 意 : 如 果 rl 入 是 相同 类 型 的 ， 则 U_JOIN 退化 为 U_INTER- 
SECT。 

下 面 用 一 个 例子 来 说 明 U_JOIN 的 使 用 。 假 设 数据 库 中 存在 另 一 个 关系 变量 S_CITY_DUR- 
ING， 它 的 属性 包括 S#、CITY 和 DURING ， 候 选 码 是 1S#，DURING| ， 谓 词语 义 如 下 : 

供应 商 S# 从 DURING 的 开始 点 到 结束 点 这 一 区 间 内 位 于 城市 CITY 。 
现在 考虑 查询 “取得 满足 以 下 条 件 的 S#_CITY_P#_DURING 元 组 : 供应 商 S# 位 于 城市 CITY, 上 且 
在 整个 区 间 DURING 内 可 以 供应 零件 P#， 其 中 DURING 包含 了 日 期 4。” 下面 是 该 查询 的 一 个 可 
能 的 公式 表达 形式 : 


{ USING DURING 4 S CITY DURING JOIN SP_DURING w ) 
WHERE d04 € DURING 


最 后 看 一 下 U_project， 定 义 表 达 式 


USING ( ACL ) 4 R{ BCL 》 


作为 以 下 表达 式 的 速记 ，; 


PACK ( ( UNPACK r ON ( ACL ) ) { BCL } ) ON ( ACL ) 


ACL 中 的 每 个 属性 都 必须 是 某 种 区 间 类 型 的 ， 且 必须 在 BCL 中 涉及 (因此 也 必然 是 + 的 一 个 属 
性 ) 。 我 们 还 是 将 查询 A 作为 例子 来 看 一 下 : 
s 查询 A: 取得 至 少 在 某 一 个 时 间 区 间 里 可 以 供应 至 少 一 种 零件 的 供应 商 的 属性 对 S#_ 
DURING， 其 中 DURING 是 指 这 样 一 个 区 间 。 
下 面 是 该 查询 的 一 个 “U_project” 的 公式 表达 形式 : 


USING DURING 4 SP_DURING { S#, DURING } > 


鉴于 对 于 查询 B 我 们 已 经 有 了 如 下 的 一 个 “U_MINUS” 的 公式 表达 形式 : 
USING DURING 4 S_DURING { S#, DURING } 
MI 


NUS 
SP_DURING { S#, DURING } > 


现在 我 们 已 经 达到 了 一 个 最 初 目标 : 已 经 找到 了 一 种 (实际 上 是 更 多 ) 用 公式 表示 查询 A 和 查 
询 B 的 更 好 的 方式 。 

1. 关系 比较 

关系 比较 从 严格 意义 上 来 说 不 算是 关系 操作 ， 因 为 它们 返回 的 是 一 个 真 值 而 非 一 个 关系 。 然 
而 ， 我 们 可 以 将 它们 与 关系 操作 符 同 等 对 待 ， 而 且 它们 也 确实 值得 这 样 做 。 当 关系 包含 了 区 间 类 
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型 的 属性 时 ， 经 常 要 做 的 是 比较 这 些 关系 的 某 些 反 归 并 的 副本 ， 而 不 是 关系 本 身 。 我 们 先 来 介绍 
规则 的 “关系 等 价 ”比较 的 “U_” 对 应 操作 。 具 体 地 说 ， 定 义 表达 式 


USING ( ACL ) 4rl = r2 e 


作为 以 下 表达 式 的 速记 : 


( UNPACK rl ON ( ACL ) ) = ( UNPACK r2 ON ( ACL ) ) 


4CL 中 的 每 个 属性 必须 是 某 种 区 间 类 型 的 ， 而 且 必 须 同时 出 现在 rl 和 以 中。 需要 注意 的 是 , 问 
题 中 最 后 一 个 步骤 PACK 没有 出 现 ， 因 为 正如 已 经 指出 的 那样 ，“= ”的 结果 是 一 个 真 值 而 非 一 
个 关系 。 

作为 例子 , 设 r1 入 如 下 : 


rl r2 


[901:d03] [ad01:d021] 
[902:d05] [903:905] 
[d04:d04] 


则 > = 这 的 结果 为 FALSE, 但 USING AAr1 = r2B 的 结果 为 TRUE。 

为 了 方便 ， 我 们 将 上 述 的 操作 符 简 写 为 “U_ = ”( 实 际 上 ， 它 与 前 一 节 结 尾 处 为 n 元 关系 定 
义 的 操作 符 是 等 价 操作 符 )。 用 同 种 方式 可 以 定义 其 他 所 有 关系 比较 操作 符 ( 关 、C 、C 、 刁 和 
的 “U_” 版 本 。 例 如 ， 如 果 ri 和 尺 如 上 例 中 所 示 ， 则 USING A 4r/ Cr2P 的 结果 为 TRUE， 
而 USING A rl CC 以 P 的 结果 为 FALSE。 

2. 规则 关系 操作 回顾 

再 次 考虑 操作 符 U_MINUS。 回 忆 一 下 ， 我 们 定义 了 表达 式 


USING ( ACL ) € rl MINUS r2 » 





作为 以 下 表达 式 的 速记 : 
PACK 
( ( UNPACK rl ON ( ACL ) ) MINUS ( UNPACK r2 ON ( ACL ) ) ) 
ON ( ACL ) 
现在 假设 ACL 为 空 ( 即 没有 指定 任何 属性 )， 因 此 : 
USING ( ) 4 rl MINUS r2 > 
则 扩展 形式 变 为 : 
PACK 
( ( UNPACK rl ON ( ) ) MINUS ( UNPACK r2 ON ( ) ) ) 
ON ( ) 


现在 回想 上 一 节 中 UNPACK r ON( ) 和 PACK r ON( ) 返 回 的 都 是 r+。 因 此 整个 表达 式 化 
简 为 : 


rl MINUS rr2 
换 句 话说 ， 规 则 的 关系 MINUS 本 质 上 就 是 U_MINUS 的 一 种 特例 ! 因此 如 果 我 们 重新 定义 
规则 MINUS 操作 符 的 语法 如 下 : 


{ USING ( ACL ) ] 4 <relation exp> MINUS <relation exp> Pp 


并 且 人 允许 当 且 仅 当 4CZ 为 空 时 ，USING 的 说 明 (以 及 括 起 了 表达 式 其 余部 分 的 箭头 二 和 
PF) 可 以 省 略 ， 那 么 就 不 再 需要 特别 讨论 “U_MINUS” 操 作 符 一 一 所 有 的 MINUS 有 效 地 变 为 
U_MINUS ， 而 且 可 以 因此 扩展 MINUS 的 含义 。 
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类 似 的 论点 可 以 应 用 于 其 他 所 有 关系 操作 符 ， 包 括 关 系 比较 符 : 在 所 有 情况 下 ， 规 则 操作 符 
基本 上 只 是 对 应 的 “U_” 操 作 符 在 USING 说 明 中 不 存在 任何 属性 时 的 特例 ， 在 此 种 情况 下 ， 人 多 
许 说 明 (以 及 括 起 了 表达 式 其 余部 分 的 箭头 友和 BP ) 省 略 。 从 另 一 个 角度 说 , “U_” 操 作 符 都 
只 是 对 应 的 规则 操作 符 的 概 化 形式 。 因 此 不 再 需要 明确 讨论 “U_” 操 作 符 〈 除 非 偶尔 为 了 强调 ， 
我 们 也 不 会 再 讨论 ) ; 取而代之 我 们 需要 做 的 就 是 ， 要 承认 当 关系 操作 符 应 用 于 区 间 类 型 属性 
时 ， 操 作 符 允许 但 并 不 一 定 要 求 存在 额外 的 一 个 操作 数 。 因 此 请 注意 ， 在 本 章 中 的 剩余 部 分 ， 所 
有 的 关系 操作 符 和 关系 比较 符 ， 指 的 都 是 本 节 所 说 的 通用 形式 〈 除 非 明 确 说 明 ) 。 然 而 为 了 清楚 
起 见 ， 我 们 时 常会 根据 应 用 明确 地 限定 “规则 的 ”( 或 者 称 为 “经 典 的 ") 和 “通用 的 ”操作 符 
和 比较 符 ; 同样 根据 应 用 ， 我 们 有 时 也 会 明确 地 使 用 “U_”。 


23.6 ”数据库 设计 


时 态 数 据 库 设计 中 存在 一 些 特殊 的 问题 。 为 了 举例 说 明 这 些 问题 ， 我 们 按照 如 下 的 方式 再 次 
修改 前 面 的 例子 : 第 一 ， 完 全 删 掉 发 货 记录 ; 第 二 ， 人 恢复 供应 商 的 姓名 、 状 态 和 城市 信息 。 下 面 
直接 提出 修改 数据 库 的 首选 设计 ”: 


VAR S_SINCE BASE RELATION 


S#, S#_SINCE DATE, 
SNAME NAME, SNAME SINCE DATE, 
STATUS INTEGER, STATUS SINCE DATE, 
CITY CHAR, CITY SINCE DATE } 
KEY { S# } ; 


VAR S_DURING 
BASE RELATION 
{ S# #， 
DURING INTERVAL DATE } 
KEY { S#, DURING 了 ; 
VAR S_STATUS DURING 
BRSE RELATION 
{ S# S#, 
STATUS INTEGER, 
DURING INTERVAL DATE } 
KEY { S#, DURING 了 ; 
VAR S_NAME _ DURING 
BASE RELATION 
{ S# S#, 
SNAME NAME, 
DURING INTERVAL DATE } 
KEY { S#, DURING 了 ; 
VAR S_CITY DURING 
BASE RELATION 
{ 5S# S#, 
CITY CHAR, 
DURING INTERVAL DATE } 
KEY { S#, DURING 了 ; 


谓词 语义 如 下 : 
am S_SINCE: 供应 商 S# 自 从 S#_SINCE 开始 就 签订 了 合约 ， 自 从 SNAME_SINCE 开始 就 被 称 
为 SNAME， 自 从 STATUS_SINCE 开始 状态 就 是 STATUS ， 自 从 CITY_SINCE 开始 就 位 于 
城市 CITY。 
ss S_DURING: 供应 商 S# 在 区 间 DURING 期 间 是 处 于 合约 约束 下 的 。 
m S_NAME_DURING: 供应 商 S# 在 区 间 DURING 期 间 的 名 字 是 SNAME。 
ma S_STATUS_DURING: 供应 商 S# 在 区 间 DURING 期 间 的 状态 是 STATUS 。 
sm S_CITY_DURING: 供应 商 S# 在 区 间 DURING 期 间 位 于 城市 CITY。 
另外 ， 我 们 需要 增加 一 种 情况 ， 即 四 个 “在 …… 期 间 ” 说 明了 DURING 结束 点 的 那 一 天 是 过 去 
的 一 天 (参加 本 节 后 面 的 小 节 “ 移 动 点 NOW” )。 
正如 你 看 到 的 ， 我 们 首选 的 设计 方案 在 一 个 “自从 关系 变量 ”里 保留 了 当前 信息 ， 在 一 组 





外 ”要 特别 注意 的 是 ， 在 这 个 设计 中 关系 变量 S_SINCE 与 23. 2 节 中 的 关系 变量 S_SINCE 不 同 。 
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“在 …… 期 间 关 系 变量 ”里 保留 了 历史 信息 。 我 们 将 这 种 分 离 称 为 水 平分 解 。 此 外 ， 历 史 信息 保 
留 在 一 组 不 同 的 关系 变量 里 面 一 一 泛泛 地 说 ， 每 个 都 是 供应 商 的 一 个 不 同属 性 一 一 而 我 们 称 这 种 
分 离 为 垂直 分 解 。 在 接 下 来 的 几 小 节 中 我 们 会 证 明 这 些 分 解 。 

1. 水 平分 解 

水 平分 解 的 主要 理由 很 简单 ， 是 由 于 历史 信息 和 当前 信息 之 间 存 在 明显 的 逻辑 差异 : 

® 对 于 历史 信息 ， 开 始 和 结束 时 间 都 是 已 知 的 。 

a 相对 而 言 ， 对 于 当前 信息 ， 开 始 时 间 是 已 知 的， 而 结束 时 间 未 知 。 
换 句 话说 ， 谓 词语 义 是 不 同 的 ， 很 明显 将 历史 信息 和 当前 信息 划分 在 不 同 的 关系 变量 中 是 正确 的 
选择 。 注 意 : 实际 上 前 面 的 两 个 声明 都 有 点 过 于 简单 ， 但 对 于 当前 的 目标 来 说 已 经 是 足够 的 了 。 

然而 可 以 观察 到 ，“ 当前 的 ”关系 变量 S_SINCE 有 四 个 “自从 ”属性 ， 每 个 对 应 了 一 个 
“ 非 自 从 ”的 属性 。 比 较 而 言 ， 有 关 “ 时 间 戳 元 组 ”的 文献 中 提出 单独 一 个 “自从 ”属性 应 该 
就 足够 了 ， 因 此 : 


S_SINCE { S#, SNAME, STATUS, CITY, SINCE } 


但 是 如 果 试 着 表述 这 个 设计 的 谓词 ， 很 容易 看 出 它 的 错误 : 
自从 日 期 SINCE 开始 ， 以 下 的 四 条 都 为 真 : 
1) 供应 商 S# 处 在 合约 约束 下 。 
2) 供应 商 S# 被 称 为 SNAME。 
3) 供应 商 S# 的 状态 是 STATUS。 
4) 供应 商 S# 位 于 城市 CITY 中 。 
例如 ， 假 设 当前 的 关系 变量 中 包含 了 如 下 的 元 组 : 


5 | sn | srs | rir | snes | 
sr | susn | 20 | ionaon [aor | 


假设 今天 是 日 期 10， 且 从 今天 开始 ， 供 应 商 S1 的 状态 改 为 30， 因 此 将 刚才 的 元 组 替换 为 : 


EE 
sr smn | 0 | ionon [aio 


现在 我 们 已 经 失去 了 供应 商 S1 自从 日 期 4 开始 就 位 于 伦敦 中 这 一 信息 。 概 括 起 来 ， 很 显然 这 个 
设计 无 法 表示 出 一 个 供应 商 在 最 近 一 次 修改 之 前 的 任何 信息 〈 比 较 宽泛 的 说 法 ) 。 笼 统 地 说 ， 问 
题 就 在 于 时 间 戳 属性 SINCE 时 间 稚 的 性 质 太 强 ， 它 代表 了 四 个 不 同属 性 联合 (供应 商 在 合约 约 
束 下 ， 供 应 商 的 名 字 、 状 态 以 及 所 在 的 城市 ) 而 非 单独 一 个 属性 的 时 间 截 。 相 反 ， 在 我 们 的 首 
选 设计 方案 中 ， 每 个 属性 都 应 有 自己 的 时 间 截 。 

2. 垂直 分 解 

当然 ， 即 使 有 四 个 分 离 的 “自从 ”属性 ， 关 系 变量 S_SINCE 也 只 是 半 时 态 化 的 ， 这 就 是 为 
什么 我 们 还 需要 “在 …… 期 间 ” 关 系 变量 来 表示 历史 信息 。 但 为 什么 对 历史 信息 来 说 垂直 分 解 
是 必要 的 呢 ? 为 了 考察 这 个 问题 ， 假 设 已 经 存在 一 个 “在 …… 期 间 ” 关 系 变量 如 下 


S_DURING { S#, SNAME, STATUS, CITY, DURING } 


谓词 语义 如 下 : 
在 区 间 DURING 期 间 里 ， 以 下 四 条 都 是 真 的 ; 
1) 供应 商 S# 处 在 合约 约束 下 。 
2) 供应 商 S# 被 称 为 SNAME。 
3) 供应 商 S# 的 状态 是 STATUS。 
4) 供应 商 S# 位 于 城市 CITY 中 。 
如 同 前 一 小 节 中 的 那个 只 有 一 个 “自从 ”属性 的 关系 变量 S_SINCE 一 样 ， 从 上 面 的 谓词 语 
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义 中 应 该 可 以 马上 并 且 清 楚 地 看 出 这 个 关系 变量 设计 得 并 不 好 。 假 设 它 包含 了 如 下 的 元 组 : 


S# SNAME STATUS | CITY DURING 

S2 | Jones 10 | Paris | {G02:d04) 
同时 假设 我 们 现在 得 知 (1) 供应 商 S2 在 日 期 2 和 日 期 3 时 的 状态 确实 是 10， 但 在 日 期 4 时 变 
为 了 15,， 并 且 (2) 供应 商 S2 在 日 期 3 和 日 期 4 时 确实 在 巴黎 ， 但 在 日 期 2 时 应 该 在 伦敦 。 则 


我 们 需要 对 关系 变量 做 一 组 相当 复杂 的 更 新 来 反映 真实 世界 的 变化 。 具 体 地 说 ， 需 要 将 已 存在 的 
元 组 替换 为 以 下 三 个 元 组 : 




















5# SNAME STATUS | CITY DURING 
S2 | Jones 10 | London | [902:q02] 
S# SNAME STATUS CITY DURING 
S2 | Jones 10 | Paris [ad03 :ad03 ] 











S# SNAME STATUS | CITY DURING 

| S2 Jones 15 | Paris | 
现在 可 以 观察 到 ， 我 们 用 两 个 元 组 替代 一 个 元 组 来 表示 在 区 间 [do2: d03] 期 间 状 态 是 10， 用 
两 个 元 组 替代 一 个 元 组 来 表示 在 区 间 [4d03: d04 ] 期 间 所 在 的 城市 是 巴黎 。 

正如 这 个 例子 暗示 的 那样 ， 更 新 关系 变量 S_DURING 使 之 能 够 反映 真实 世界 的 变化 ， 这 项 
工作 通常 来 说 并 不 是 完全 简单 直接 的 。 主 要 的 问题 还 是 时 间 截 属性 (现在 是 DURING) 时 间 稚 


的 性 质 太 强 ， 它 实际 上 还 是 四 个 不 同属 性 联合 的 一 个 时 间 锥 。 解 决 方法 就 是 将 四 个 属性 分 离开 ， 
分 成 四 个 单独 的 关系 变量 ， 因 此 : 


S_DURING { S#, DURING } 
KEY { S#, DURING } 





S NAME DURING  { S#, SNAME, DURING } 
KEY { S#, DURING } 


S_STATUS DURING { S#, STATUS, DURING } 
KEY { S#, DURING } 


S CITY DURING { S#, CITY, DURING } 
KEY { S#, DURING } 

关系 变量 S_DURING 表明 了 某 供应 商 在 何 时 处 于 合约 约束 下 ; 关系 变量 S_NAME_DURING 表明 
某 供应 商 在 何 时 叫 什么 名 字 ; 关系 变量 S_ STATUS _DURING 表明 某 供应 商 在 何 时 的 状态 如 何 ; 
关系 变量 S_CITY _DURING 表明 某 供应 商 在 何 时 位 于 哪个 城市 。 

3. 第 六 范式 

前 面 的 垂直 分 解 ， 无 论 在 基本 理论 上 还 是 在 效果 上 ， 都 使 人 联想 到 经 典 标 准 化 ， 而 且 值 得 花 
费 一 定时 间 在 更 深 的 层次 上 考察 它们 的 相似 之 处 。 实 际 上 ， 垂 直 分 解 一 直 是 经 典 标 准 理论 关心 的 
内 容 ; 这 一 理论 中 的 分 解 操 作 符 是 投影 ( 它 被 定义 为 一 个 垂直 分 解 操作 符 ) ， 相 应 的 重组 操作 符 
是 连接 。 基 于 以 上 原因 ， 如 我 们 在 第 13 章 看 到 的 那样 ， 经 典 标准 化 理论 的 最 终 范式 ， 第 五 范式 
或 者 5NF， 有 时 被 称 为 投影 一 连接 范式 。 注 意 : 既然 这 些 评 论 与 经 典 标准 化 息息相关 ， 那 么 提 到 
投影 和 连接 就 必须 理解 成 是 这 些 操 作 符 的 经 典 版 本 ， 而 不 是 23. 5 节 介 绍 的 通用 版 本 。 

甚至 是 在 出 现时 态 数据 库 之 前 ， 一 些 研 究 人 员 ( 见 参 考 文献 [14.21]) 就 赞同 尽 可 能 地 分 
解 关系 变量 ， 而 不 只 是 按照 经 典 标准 化 要 求 的 那样 做 。 通 常 的 想法 是 要 减少 关系 变量 不 可 约 的 成 
分 到 2 ， 意 味 着 不 可 能 存在 进一步 的 无 损 分 解 。 在 非 时 态 关系 变量 的 情况 下 ， 要 求 “ 自 始 至 终 
都 要 分 解 ” 的 观点 并 不 十 分 强烈 ,但 是 对 形 如 上 一 个 小 节 中 的 S_DURING (只 有 一 个 
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“在 …… 期 间 ” 属 性 的 第 一 个 版 本 ) 这 样 的 关系 变量 ， 这 种 观点 就 变 得 十 分 强烈 了 。 一 个 供应 商 
的 名 字 、 状 态 和 城市 的 改变 是 不 依赖 于 时 间 的 ， 而 且 它 们 也 可 能 按照 不 同 的 速度 变化 。 比 如 可 能 
的 情况 是 ， 供 应 商 的 名 字 几 乎 不 变 ， 而 同一 个 供应 商 的 位 置 偶 尔 会 发 生变 化 ， 对 应 的 状态 经 常 改 
变 。 除 此 之 外 ， 供 应 商 的 名 字 历 史 、 状 态 历史 和 城市 历史 这 些 信息 ， 比 起 “名 字 - 状态 - 城市 ” 
这 一 联合 的 历史 信息 ， 可 能 是 更 容易 得 到 的 概念 ; 因此 我 们 建议 进行 垂直 分 解 。 

现在 回想 起 来 ，5NF 是 建立 在 连接 依赖 (了 Dp) 基础 上 的 。 提 示 : 关系 变量 R 满 足 JD* |4， 
B，…， Zi (其 中 4,，B8，…， Z 是 RR 的 属性 子 集 )， 当 且 仅 当 R 的 每 个 合法 值 都 等 于 它 在 4， 
B8,，…，Z 上 的 投影 的 连接 一 一 即 当 上 且 仅 当 RR 可 以 被 无 损 分 解 为 那些 投影 。 现 在 ， 既 然 我 们 已 经 
将 连接 的 定义 泛 化 了 ， 那 么 相应 地 我 们 可 以 将 了 的 定义 也 一 般 化 。 接 着 我 们 可 以 根据 JD 的 一 
般 化 概念 ， 定 义 一 个 新 的 ( 即 第 六 ) 范式 。 其 定义 如 下 : 

sm 设 R 是 一 个 关系 变量 ，4，B,…, Z 是 RR 的 属性 子 集 , 设 ACL 是 RR 的 区 间 值 属性 的 列表 。 

则 我 们 说 R 满足 一 般 化 的 连接 依赖 (了 D): 


USING ( ACL )}*{A,B,...,，2} 
当 且 仅 当 表达 式 
USING ( ACE ) 4 R=R'Y 


(其 中 R' 是 R 在 A，B,…，Z 上 的 U_ 投影 的 U_ 连 接 ，U_ 连 接 和 TU_ 投 影 都 包含 了 一 个 USING 
(4CL) 形式 的 USING 说 明 ) 对 于 RR 的 每 一 个 合法 值 都 为 真 。 注 意 : 与 连接 一 样 ，U_ 连 接 是 
结合 性 的 ， 也 就 是 说 我 们 可 以 明确 地 说 到 任何 多 个 关系 的 U_ 连 接 。 还 需要 注意 的 是 ， 说 前 面 
的 表达 式 为 真 ， 意 味 着 及 和 有 R' 是 (关于 4CL) 等 价 的 一 一 参见 23. 4 节 结 尾 处 关于 这 一 内 容 的 
讨论 。 

a 一 个 关系 变量 RR 是 第 六 范式 (6NF) ， 当 且 仅 当 它 完全 不 满足 非 平凡 连接 依赖 。 其 中 ， 一 

个 连接 依赖 是 平凡 的 ， 当 且 仅 当 它 至 少 包含 了 一 个 投影 (可 能 是 U_ 投 影 ) ， 该 投影 是 在 
这 个 关系 变量 涉及 的 所 有 属性 上 的 。 

从 这 个 定义 中 可 以 发 现 ， 每 个 满足 6NF 的 关系 变量 也 都 满足 SNF。 同 时 ， 给 定 一 个 关系 变 
量 ， 它 满足 6NF 当 且 仅 当 它 在 某 一 方面 是 不 可 约 的 ， 如 同 前 面 解释 的 那样 。 

现在 根据 这 个 定义 ， 有 属性 S#、SNAME、STATUS 、CITY 和 DURING 的 关系 变量 S_DUR- 
ING 版 本 不 满足 6NF， 因 为 : 

1) 它 满足 一 般 化 的 连接 依赖 USING DURING * |SND，STD，SCD| (其 中 “SND” 代 表 
了 属性 集 |{S#，SNAME，DURING| ,“STD” 和 “SCD” 与 之 类 似 ) 。 

2) 这 个 连接 依赖 肯定 是 非 平凡 的 。 

因此 我 们 希望 关系 变量 S_DURING 像 上 一 小 节 讨论 的 那样 ， 被 分 解 成 满足 6NF 的 投影 。 

注意 : 你 可 能 已 经 注意 到 ， 前 面 的 例子 分 解 成 3 个 而 非 4 个 关系 变量 就 已 经 足够 了 一 一 有 属 
性 S# 和 DURING 的 关系 变量 S_DURING 不 需要 分 解 ， 因 为 在 任何 时 候 S_DURING 都 等 于 其 他 三 
个 关系 变量 在 S# 和 DURING 上 的 (一般) 投影。 然而 我 们 还 是 倾向 于 将 S_DURING 包括 进 我 们 
的 总 体 设计 ， 部 分 是 因为 完整 性 的 原因 ， 另 一 部 分 原因 是 这 样 的 设计 避免 了 可 能 出 现 的 某 种 程度 
上 的 不 易 使 用 和 任意 性 *。 

4. 移动 点 NOW 

现在 回 到 水 平分 解 这 个 命题 上 来 〈( 即 分 割 成 “自从 ……” 和 “在 …… 期 间 ” 关 系 变 量 ) 。 
显然 不 能 只 有 “自从 ……” 关系 变量 ， 因 为 这 样 的 关系 变量 只 不 过 是 半 时 态 化 的 ， 而 且 不 能 表 
示 历 史 信息 。 但 是 可 以 只 有 “在 …… 期 间 ” 关 系 变量 一 一 只 有 假定 数据 库 中 的 数据 都 是 真实 有 
效 的 ， 正 如 我 们 现在 要 解释 的 这 样 。 

考虑 一 种 情况 ， 一 个 合约 还 没有 终止 的 供应 商 。 当 然 ， 我 们 可 能 知道 合约 预计 何 时 终止 ; 但 
多 数 情况 是 合约 是 可 修订 的 《比如 一 份 典型 的 雇佣 合同 ) 。 因 此 ， 在 一 个 “在 …… 期 间 ” 关 系 变 
量 中 无 论 指定 什么 〈 值 ) 作为 这 样 一 个 供应 商 的 DURING 属性 的 END 值 好 像 都 是 不 正确 的 。 我 
们 可 以 、 也 可 能 会 采用 一 种 惯例 :每 一 个 供应 商 DURING 属性 的 END 值 都 被 指定 为 最 后 一 天 
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( 即 END 值 由 LAST_DATE( ) 返 回 )”。 但 需要 注意 的 是 ， 这 样 的 安排 意味 着 ， 如 果 “ 最 后 一 
天 ”出 现在 一 个 查询 的 结果 中 ， 用 户 可 能 要 将 该 值 解释 为 “直到 另行 通知 ”， 而 不 是 实际 上 的 最 
后 一 天 ， 换 名 话说 ， 说 一 个 供应 商 DURING 属性 的 END 值 是 “最 后 一 天 ”就 不 够 真实 。 

为 了 避免 产生 歧义 ,一 些 著作 一 一 比如 参考 文献 [23.2] 一 一 已 经 提出 使 用 一 个 特别 的 
“NOW 标记 ”来 指明 在 23. 1 节 中 所 说 的 “移动 点 (时 间 变 元 ) NOW” ( 换 名 话说 就 是 代替 “ 直 
到 另行 通知 ”( 变动 的 时 间或 当前 时 间或 不 确定 的 时 间 ) ) 。 基 本 的 想法 就 是 允许 这 个 特别 标记 无 
论 在 哪里 出 现 都 是 : (1) 允许 点 类 型 的 值 ; (2) 希望 的 解释 是 “直到 另行 通知 "” 。 因 此 ， 比 如 一 
个 关系 变量 S_DURING 可 能 包括 了 供应 商 S1 的 一 个 元 组 ，DURING 值 由 [4d04: NOW] 代替 了 
[d04: d99 ] 。( 这 里 假设 日 期 99 是 最 后 一 天 ， 且 d99 的 出 现代 表 的 是 “直到 另行 通知 ”( 当前 时 
间 ) 而 不 是 真正 的 日 期 99。) 

但 是 我 们 认为 ， 引 人 NOW 标记 违反 了 健全 的 关系 原则 。 要 注意 的 是 ，NOW 是 一 个 变量 ， 
我 们 观察 到 ， 这 个 方法 涉及 非常 奇特 的 一 一 可 以 说 是 不 合 多 辑 的 一 一 变量 值 ( 特 指 区 间 值 ) 的 
概念 >”。 下 面 有 一 些 由 NOW 这 个 概念 引起 的 问题 ， 你 可 能 要 注意 考虑 一 下 : 

sa 设 i 是 区 间 [NOW: d14] ,1 是 包含 i 的 一 个 元 组 ,并且 设 今天 的 日 期 为 10。 元 组 1 可 被 

认为 是 分 别 包 含 了 单位 区 间 [d10: d10]、[dill: d11]、[d12: d12]、[d13: d13] 和 
[d14: d14] 的 五 个 单独 元 组 的 一 种 速记 。 但 当 到 了 日 期 10 的 午夜 时 ， 这 些 元 组 中 的 第 
一 个 会 自动 删除 ! 日 期 11、 日 期 12 以 及 日 期 13 等 都 是 同样 的 情况 ， 那 么 在 日 期 14 时 会 
出 现 什么 情况 呢 ? 

ed99 =NOW 这 一 比较 会 产生 什么 结果 ? 

“NOW +1” 或 者 “NOW -1” 的 值 是 多 少 ? 

s 如 果 i 和 记分 别 是 区 间 [4d01: NOW] 和 [4d06: d07] ， 它 们 是 否 会 相 邻 或 重 香 ? 

m 一 个 元 组 ， 它 的 区 间 属 性 值 为 [4d04: NOW ] ， 在 这 个 属性 上 反 归 并 包含 这 个 元 组 的 一 个 

关系 ， 得 到 的 结果 是 怎样 的 ? 

m 集合 |[d01: NOW]，[d01: d04] | 的 基数 是 多 少 ? 

等 等 (这 里 并 不 是 一 个 最 详尽 的 列表 )。 对 于 上 面 这 些 问题 ， 相 信 很 难 给 出 一 致 的 答案 ; 显然 ， 
我 们 希望 有 一 种 方法 可 以 不 依赖 于 像 NOW 这 样 不 可 信 的 概念 以 及 包含 了 变量 的 数值 。 的 确 存 在 
这 样 的 观点 ， 即 在 水 平分 解 中 时 间 元 素 NOW 不 是 必要 的 。 


23. 7 完整 性 约束 


本 节 将 注意 力 转向 时 态 数 据 的 完整 性 约束 。 在 23. 2 节 中 曾经 看 到 ， 缺 少 了 适当 的 区 间 的 支 
持 ， 即 使 是 用 公式 准确 表示 出 这 种 约束 都 是 非常 困难 的 ;现在 我 们 将 会 看 到 上 一 节 中 介绍 的 概念 
是 怎样 减弱 这 个 问题 的 〈 即 如 何 减少 表示 约束 所 面临 的 困难 ) 。 

为 了 明确 起 见 ， 我 们 集中 关注 关系 变量 S_STATUS_DURING ， 定 义 如 下 : 


S STATUS DURING { S#, STATUS, DURING } 

一 一 KEY { S#, DURING } 
在 接 下 来 的 三 个 小 节 中 ， 我 们 会 逐个 检查 可 能 发 生 在 这 样 一 个 时 态 关 系 变量 上 的 三 个 常见 问题 ， 
分 别称 它们 为 元 余 问 题 、 迁 回 问题 以 及 矛盾 问题 。 

1. 元 余 问 题 

尽管 关系 变量 S_STATUS_DURING 的 主 码 约束 在 逻辑 上 是 正确 的 ， 但 在 某 种 意义 上 来 说 是 
不 充分 的 。 比 如 ， 它 不 能 防止 关系 变量 同时 包含 以 下 两 个 元 组 : 


rs mi | rs ore | 
asl] [sl tao] 





名 ”当然 ， 在 后 面 真 值 已 知 后 ， 我 们 可 以 将 那个 假 值 替换 为 真 值 。 
”其 实 NOW 类 似 于 NULL， 因 为 它 就 如 同 NULL 一 样 ， 导 致 值 的 概念 中 包含 进 了 非 数值 的 情况 (参见 第 19 章 ) 。 
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可 以 看 到 ， 这 两 个 元 组 产生 了 某 种 完 余 ， 因 为 按照 此 种 情况 ， 供 应 商 S4 在 日 期 6 被 描述 了 
两 次 。 很 显然 ， 由 下 面 一 个 元 组 替代 它们 是 更 好 的 选择 : 


S# STATUS | DURING 





S4 25 | [do5:d071] 





现在 可 以 观察 到 ， 如 果 原 来 的 两 个 元 组 是 某 个 两 元 组 关系 中 仅 有 的 元 组 ， 并 且 我 们 在 DUR- 
ING 属性 上 归并 了 这 个 关系 ， 我 们 将 得 到 一 个 只 包含 了 如 上 所 示 的 一 个 元 组 的 一 元 组 关系 。 因 此 
不 严格 地 说 ， 刚 才 所 示 的 元 组 是 一 个 “归并 的 ”元 组 ， 它 是 通过 在 属性 DURING 上 归并 两 个 原 
始 元 组 得 到 的 (之 所 以 用 “不 严格 地 说 ”是 因为 ， 事 实 上 反 归 并 操作 是 应 用 在 关系 上 而 非 元 组 
上 的 ) 。 所 以 我 们 要 做 的 就 是 将 两 个 原始 元 组 替换 成 那个 “归并 的 ”元 组 。 实 际 上 正如 在 23.2 
节 中 指出 的 那样 ， 不 执行 这 一 替换 一 一 即 允 许 两 个 原始 元 组 同时 出 现 一 一 几乎 与 允许 重复 元 组 出 
现 〈 这 同样 是 一 种 宛 余 ) 一 样 糟糕 。 确 实 ， 如 果 两 个 原始 元 组 都 出 现 ， 关 系 变量 就 违反 了 自己 
的 谓词 ! 例如 ， 右 边 的 元 组 说 明 供应 商 S4 在 日 期 6 的 前 一 天 的 状态 还 不 是 25。 但 左边 的 元 组 说 
明 供 应 商 S4 在 日 期 5 的 状态 是 25， 而 显然 日 期 5 是 日 期 6 的 前 一 天 。 

2. 迁 回 问题 

关系 变量 S_STATUS_DURING 的 主 码 约束 在 另 一 个 方面 也 是 不 充分 的 。 比 如 ， 它 不 能 防止 
关系 变量 同时 包含 以 下 两 个 元 组 : 


s# | STATUS | DURING | st | sTarus | poRING | 
EEC EEC 


这 里 不 存在 元 余 ,但 是 存在 某 种 迁 回 (circumlocution) ， 因 为 我 们 用 了 两 个 元 组 来 说 明 一 个 
只 用 一 个 “归并 的 ”元 组 (实际 上 与 前 面 的 相同 ) 就 能 更 好 说 明 的 问题 : 


S# | STATUS | DURING 
S4 25 | [da05:dad07] 











很 容易 证 明 ， 不 将 两 个 原始 元 组 替换 成 这 个 “归并 的 ”元 组 会 再 次 表示 关系 变量 违反 了 自 
己 的 谓词 。 

3. 解决 元 余 和 迁 回 问题 

为 了 避免 刚刚 讨论 过 的 元 余 和 迁 回 问 题 ， 需 要 做 的 就 是 执行 一 条 约束 ， 称 为 约束 A， 倒 述 如 
下 : 

约束 A: 一 个 任意 给 定 的 时 态 关系 变量 S_STATUS_DURING， 如 果 它 包含 了 两 个 不 同 

的 元 组 ， 它 们 除了 DURING 值 分 别 为 让 和 认 以 外 ， 其 他 都 相同 ， 那 么 i} MERGES 己 

必须 为 假 。 

我 们 曾 讲 过 ， 不 严格 地 说 ，MERGES 是 OVERLAPS 和 MEETS 的 逻辑 OR: 在 约束 A 中 ,将 
MERGES 替换 成 OVERLAPS 得 到 的 约束 可 以 用 来 避免 元 余 问题 ; 将 它 替 换 成 MEETS 得 到 的 约 
柬 可 以 用 来 避免 迁 回 问题 。 

显然 要 执行 约束 A 有 一 种 非常 简单 的 方法 : 任何 时 候 归 并 关系 变量 都 要 在 DURING 这 个 属 
性 上 。 因 此 让 我 们 生成 一 条 新 的 PACKED ON 约束 ， 它 可 以 出 现在 关系 变量 的 定义 中 : 


VAR S_STRTUS_DURING BASE RELATION 
{ S¥ S#, STATUS INTEGER, DURING INTERVAL DATE } 
PACKED ON DURING 
KEY { S#, DURING } :; 


这 里 的 PACKED ON DURING 是 一 个 在 关系 变量 S_STATUS_DURING 上 的 约束 。 按 照 第 9 
章 描 述 的 经 典 模式 ， 它 实际 上 是 一 个 关系 变量 约束 。 它 的 解释 如 下 : 关系 变量 S_STATUS_DUR- 
ING 在 任何 时 候 都 要 保证 它 的 归并 是 在 DURING 上 的 。 因 此 这 一 特殊 的 语法 能 够 解决 元 余 和 过 
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回 问 题 ， 换 句 话说 ，23.2 节 中 提 到 的 约束 XFTI 可 以 作为 它 解 决 问题 的 实例 。 

4. 矛盾 问题 

PACKED ON 约束 和 主 码 约束 即使 加 在 一 起 仍然 不 是 完全 充分 的 。 比 如 ， 它 们 不 能 防止 关系 
变量 同时 包含 以 下 两 个 元 组 : 


EE 
ml fre | [sl rao5ra07 | 


这 里 供应 商 $4 在 日 期 5 和 日 期 6 的 状态 后 种 不 可 能 的 情形 。 换 句 
话说 ， 这 里 存在 一 个 矛盾 ; 事实 上 ， 这 个 关系 变量 再 次 违反 了 自己 的 谓词 ， 因 为 我 们 已 经 设 定 每 
个 供应 商 在 任何 一 个 给 定 的 日 期 里 只 能 有 一 个 状态 。 
5. 解决 矛盾 问题 
为 了 避免 刚刚 讨论 的 矛盾 问题 ， 需 要 做 的 就 是 执行 一 条 约束 ， 称 为 约束 B， 叙 述 如 下 : 
约束 B， 一 个 任意 给 定 的 时 态 关系 变量 S_STATUS_DURING ， 如 果 它 包含 了 两 个 具有 相同 
S# 值 和 不 同 STATUS 值 的 元 组 ， 那 么 它们 的 DURING 值 j 和 认 必须 满足 i OVERLAPS 2 为 假 。 
注意 ， 正 如 我 们 已 经 看 到 的 那样 ， 约 束 B 明显 不 能 仅仅 靠 在 DURING 上 归并 关系 变量 这 个 
保证 来 执行 ， 它 也 不 能 仅仅 靠 |S#，DURING| 是 候选 码 这 一 事实 来 执行 。 但 假设 关系 变量 保持 
在 任何 时 间 的 反 归 并 都 是 在 DURING 属性 上 (暂时 忽略 这 样 一 个 事实 ， 即 这 个 假设 是 不 能 成 立 
的 ， 因 为 我 们 已 经 规定 了 关系 变量 的 归并 要 保证 在 DURING 上 )。 那 么 : 
s 反 归 并 形式 中 所 有 的 DURING 值 都 是 单位 区 间 ， 并 且 因 此 与 单个 的 时 间 点 有 效 对 应 。 
让 反 归 并 形式 的 唯一 候选 码 还 将 是 {|S#，DURING|} ， 因 为 任意 给 定 的 在 合同 约束 下 的 供应 
商 ,在 任意 给 定 的 时 间 都 只 有 一 个 状态 。 
由 此 得 出 结论 ， 如 果 执 行 “ |S#，DURING} 是 反 归并 形式 UNPACK S_STATUS_DURING 
ON DURING” 的 一 个 候选 码 这 个 约束 ， 那 么 我 们 会 强制 执行 约束 B。 因 此 ， 让 我 们 生成 一 个 可 
以 出 现在 关系 变量 定义 中 的 新 的 WHEN/THEN 约束 ， 只 要 主 码 约束 出 现 ， 它 就 可 以 出 现 : 


VAR S STATUS DURING BASE RELATION 
{ S¥ S#, STATUS INTEGER, DURING INTERVAL DATE } 
PACKED ON DURING 
WHEN UNPACKED ON DURING THEN KEY { S#, DURING } 
KEY { S#, DURING } ; 





这 里 的 WHEN UNPACKED ON DURING THEN KEY |S#，DURING| 是 一 个 在 关系 变量 S_ 
STATUS_DURING 上 的 约束 一 一 就 像 前 面 讨论 的 PACKED ON 约束 一 样 ， 它 也 是 一 个 关系 变量 
约束 。 它 的 解释 如 下 : 任何 时 候 对 于 关系 变量 S_STATUS_DURJING， 表 达 式 UNPACK S_STA- 
TUS_DURING ON DURING 的 结果 中 都 不 能 存在 其 属性 组 合 1S#，DURING| (不 严格 的 说 法 是 
“|S#，DURING| 是 UNPACK S_STATUS_DURING ON DURING 的 一 个 候选 码 ” ) 值 相同 的 两 
个 元 组 。 因 此 这 一 特殊 的 语法 能 够 解决 矛盾 问题 。 

6. U_key 

关于 KEY、PACKED ON 和 WHEN/THEN 约束 ， 还 有 很 多 可 以 讨论 的 [23.4]; 而 由 于 篇 
幅 的 原因 ， 只 作 如 下 说 明 。 首 先 ， 任何 一 个 给 定 的 关系 变量 R， 它 的 定义 中 都 允许 包含 如 下 形式 
的 速记 说 明 : 


USING ( ACL ) KEY { K } 


这 里 ACL 和 天 都 是 属性 名 的 列表 ， 其 中 ACL 中 的 每 个 属性 都 必须 同时 在 KK 中 (并 且 通 常情 况 
下 ， 如 果 4CL 只 包含 一 个 属性 名 ， 则 圆 括号 可 以 省 略 ) 。 这 个 说 明 被 定义 为 如 下 三 个 约束 组 合 的 
速记 : 

PACKED ON ( ACL ) 


WHEN UNPACKED ON ( ACL ) THEN KEY { K } 
KEY { K } 
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我 们 将 1K| 缩写 为 “U_key” (后 面 的 内 容 就 会 见 到 ) 。 若 使 用 这 个 速记 ,那么 关系 变量 S_ 
STATUS_DURING 的 定义 可 简化 为 : 


VAR S STATUS DURING BASE RELATION 
{ S¥ S#, STATUS INTEGER, DURING INTERVAL DATE } 
USING DURING KEY { S#¥, DURING } :， 


现在 假设 关系 变量 R 的 U_key 说 明 中 ，A4CL 的 属性 名 列表 为 空 ， 因 此 : 


USING ( ) KEY { K } 


根据 定义 ， 这 个 说 明 是 下 列 约束 组 合 的 速记 : 

PACKED ON { 

WHEN UNPACKED ON ( ) THEN KEY { K } 

KEY { K } 

换 句 话说 ， 就 是 : 

1) 关系 变量 R 必须 不 在 任何 属性 上 上 归并。 而 不 在 任何 属性 上 归并 一 个 关系 变量 +， 将 简单 
地 返回 *>， 因 此 隐 式 的 PACKED ON 说 明 没 有 作用 。 

2) 关系 变量 R 必须 满足 : 如 果 它 不 在 任何 属性 上 进行 反 归 并 ， 那 么 | Ki 是 结果 的 一 个 候 
选 码 。 而 不 在 任何 属性 上 反 归 并 一 个 关系 变量 r>， 将 简单 地 返回 >， 因而 隐 式 的 WHEN/THEN 说 
明 只 是 意味 着 1K} 是 及 的 一 个 候选 码 ， 因 此 隐 式 的 KEY 约束 是 元 余 的 。 

由 此 得 出 结论 ， 可 以 将 一 个 规则 的 、 形 如 KEY |{K} 的 KEY 约束 ， 作 为 某 个 U_key 约束 的 
速记 ， 也 就 是 其 中 的 一 种 形式 USING () KEY {Kj 。 换 名 话说， 规则 的 KEY 约束 本 质 上 只 是 我 
们 提出 的 新 语法 的 一 种 特殊 情况 ! 所 以 ， 如 果 重 新 定义 规则 的 KEY 约束 的 语法 为 : 


[ USING ( ACL ) 1] KEY { K } 


并 且 当 且 仅 当 ACL 为 空 时 ， 人 允许 将 USING 的 说 明 省 略 掉 ， 那 么 我 们 就 根本 不 需要 讨论 U_key; 
所 有 的 候选 码 都 变 成 了 U_key， 从 而 可 以 将 “候选 码 ” (或 者 只 是 “ 码 ”) 的 含义 推 而 广 之 。 下 
面 我 们 就 会 这 样 做 。 

我 们 要 求 类 似 的 通用 形式 也 应 用 在 外 码 的 概念 上 ， 而 不 加 以 详 述 。 得 到 的 一 个 结果 就 是 如 下 
形式 的 说 明 : 


USING DURING FOREIGN KEY { S#, DURING } 
REFERENCES S_DURING 


(这 是 关系 变量 S_STAUTS_DURING 定义 的 一 部 分 ) 可 被 用 来 强制 执行 下 面 的 约束 : 如 果 关 系 
变量 S_STAUTS_DURING 中 显示 了 某 个 供应 商 在 某 个 区 间 内 的 状态 ， 那 么 关系 变量 S_DURING 
就 会 显示 同一 个 供应 商 在 相同 的 区 间 内 是 签订 了 合约 的 。 相 似 的 方法 可 以 用 来 解决 像 在 23.2 节 
中 提 到 的 约束 XFT3 那样 的 问题 。 因 此 ， 现 在 我 们 已 经 实现 了 另 一 个 初始 目标 : 找到 一 种 用 公式 
表示 前 几 节 中 讨论 的 约束 的 更 好 的 方法 。 
7. 九 个 要 求 
在 结束 这 一 节 前 ， 可 以 看 到 ， 对 于 一 个 时 态 数据 库 的 约束 还 有 相当 多 的 问题 我 们 还 没有 讨 
论 。 文献 [23.4] 对 整个 约束 问题 提出 了 一 个 认真 详细 的 分 析 ; 具体 地 说 ， 在 非常 普遍 的 情况 
下 ， 它 考虑 了 九 个 要 求 ， 这 九 个 要 求 都 是 像 供 应 商 - 发 货 这 样 的 典型 的 时 态 数 据 库 应 该 满足 的 。 
这 里 我 们 将 这 些 要 求 列 出 来 : 
a 要 求 R1: 如果 数据 库 显 示 供 应 商 Sx 在 日 期 4 时 是 签订 了 合约 的 ， 那么 它 必须 包含 了 一 个 
元 组 来 表示 这 一 事实 。 
a 要求 R2: 如 果 数 据 库 显 示 供应 商 Sx 在 日 期 a 和 日 期 4+1 时 是 签订 了 合约 的 ， 那么 它 必 
须 包含 了 一 个 元 组 来 表示 这 一 事实 。 
a 要 求 R3 : 如 果 数 据 库 显示 供应 商 Sx 在 日 期 4 时 是 签订 了 合约 的 ， 那么 它 必须 同时 也 显示 
出 供应 商 Sx 在 日 期 4 具有 的 状态 。 
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s 要 求 R4 : 如 果 数 据 库 显示 供应 商 Sx 在 日 期 4 时 具有 某 状态 .那么 它 必须 包含 了 一 个 元 组 
来 表示 这 一 事实 。 
m 要 求 R5 : 如 果 数 据 库 显 示 供 应 商 Sx 在 日 期 d 和 日 期 4+1 时 具有 相同 的 状态 ， 那 么 它 必 
须 包 含 了 一 个 元 组 来 表示 这 一 事实 。 
mw 要 求 R6 : 如 果 数 据 库 显示 供应 商 Sx 在 日 期 4 时 具有 某 状态 ， 那 么 它 必须 同时 也 显示 出 供 
应 商 Sx 在 日 期 4 时 是 签订 了 合约 的 。 
到 要 求 R7: 如 果 数 据 库 显示 供应 商 Sx 在 日 期 4 时 可 以 供应 某 种 零件 Py， 那 么 它 必须 包含 了 
一 个 元 组 来 表示 这 一 事实 。 
要求 R8: 如 果 数 据 库 显 示 供 应 商 Sx 在 日 期 4 和 日 期 d+1 时 可 以 供应 同 种 零件 Py， 那么 
它 必 须 包 含 了 一 个 元 组 来 表示 这 一 事实 。 
和 要 求 R9: 如 果 数 据 库 显示 供应 商 Sx 在 日 期 4 时 可 以 供应 某 种 零件 Py， 那 么 它 必须 间 时 也 
显示 出 供应 商 Sx 在 日 期 4 时 是 签订 了 合约 的 。 
文献 [23.4] 深入 地 分 析 了 这 九 个 要 求 ， 并 且 展 示 了 在 一 种 完全 关系 语言 (如 Tutorial D) 中 ， 
这 些 要 求 是 如 何 表示 的 。 





23.8 小结 
目前 对 包含 时 态 数据 的 数据 库 (特别 是 数据 仓库 ) 的 需求 日 渐 增 长 。 时 态 数据 可 被 认为 是 
带 时 间 稚 的 命题 的 编码 表示 法 。 命 题 使 用 了 前 置 词 “自从 …… ” (对 当前 数据 ) 和 “在 …… 期 


间 ”( 对 历史 数据 ) ， 而 且 赋 予 了 这 两 个 术语 以 非常 准确 的 含义 。 具 体 地 说 ,“ 自 从 ……” 表 示 从 
过 去 到 现在 且 不 包括 指定 时 间 点 之 前 的 一 刻 ， 而 “在 …… 期 间 ” 贯 穿 整 个 指定 的 区 间 而 不 包括 
区 间 之 前 或 者 之 后 的 一 刻 。 

接 下 来 我 们 介绍 了 一 个 很 简单 的 例子 (供应 商 和 发 货 ) ， 并 (1) 通过 加 入 SINCE 属性 将 它 
半 时 态 化 ， 然 后 (2) 通过 加 入 FROM 和 TO 属性 将 它 完全 时 态 化 。 这 两 个 设计 导致 公式 表示 约 
束 和 查询 具有 了 相当 的 复杂 性 。 因 此 我 们 介绍 了 一 种 想法 : 将 区 间作 为 数值 来 处 理 。 具 体 来 说 ， 
定义 了 点 类 型 的 概念 和 INTERVAL 类 型 发 生 器 ， 讨 论 了 相应 的 区 间 选 择 子 以 及 BEGIN 和 END 
操作 符 。 接 着 继续 定义 了 点 和 区 间 的 其 他 更 多 操作 符 ， 包 括 Allen 的 操作 符 和 区 间 的 UNION、 
INTERSECT 以 及 MINUS 操作 符 。 

紧 接着 我 们 定义 了 两 种 非常 重要 的 关系 操作 符 PACK 和 UNPACK (在 一 元 关系 上 使 用 的 是 
两 个 更 简单 的 操作 符 COLLAPSE 和 EXPAND) 。EXPAND 和 UNPACK 使 我 们 可 以 将 注意 力 集中 
在 原子 层 的 关系 信息 上 ， 而 不 用 担心 信息 可 能 会 通过 很 多 途径 结 成 “ 块 ”。 类 似 地 ，COLLAPSE 
和 PACK 使 我 们 可 以 将 注意 力 集中 在 关系 信息 的 压缩 (“ 块 的 ") 形式 上 ， 而 不 用 担心 不 同 的 
“ 块 ” 有 邻接 或 者 重合 的 可 能 。 我 们 展示 了 如 何 使 用 PACK 和 UNPACK 来 简化 时 态 查询 的 公式 
表示 ， 并 且 根 据 它们 定义 了 常见 的 关系 操作 符 的 通用 或 者 “U _” 版 本 (U_JOIN，U_MINUS， 
U_project 等 ) 。 然 后 我 们 证 明了 那些 常见 的 关系 操作 符 实际 上 都 是 通用 版 本 的 特例 。 

然后 ， 我 们 讨论 了 数据 库 设计 问题 ， 并 且 介绍 了 (1) 水 平分 解 ， 以 分 离 当 前 信息 和 历史 信 
息 ， 以 及 (2) 垂直 分 解 ， 以 分 离 一 个 相同 “实体 ”的 不 同 “属性 ”的 相关 信息 (非常 宽泛 地 
说 ) 。 事 实 上 ， 我 们 定义 了 新 的 范式 ，6NEF。 

接着 讨论 了 在 缺乏 适当 的 完整 性 约 东 的 情况 下 ， 时 态 数据 可 能 会 遇 到 的 一 些 问题 ， 具 体 地 说 
就 是 宛 余 、 迁 回 以 及 矛盾 问题 ， 并 且 展 示 了 如 何 通过 PACKED ON 和 WHEN/THEN 约束 来 解 
决 这 些 问题 。 我 们 定义 了 常见 的 KEY 约束 的 通用 化 版 本 一 一 U_key 约束 ， 并 且 证 明了 常见 的 
KEY 约束 只 是 这 个 通用 化 版 本 的 一 种 特例 。 

最 后 两 点 需要 注意 的 是 : 

s 本 章 中 介绍 的 所 有 东西 ， 除 了 INTERVAL 类 型 发 生 器 之 外 ， 都 可 以 通过 关系 模型 表示 出 

来 ， 而 归根 到 底 我 们 介绍 的 只 是 它们 的 速记 。 


ma 我 们 推荐 的 设计 方法 (特别 是 水 平分 解 ) 都 有 一 个 隐 含 的 条 件 ， 即 查询 一 一 如 果 可 能 用 
- [23.4] 
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中 也 包含 了 一 系列 进一步 简化 的 建议 ， 来 减少 这 些 复 杂 性 。 


时 间 量 子 是 什么 ? 时 间 点 是 什么 ? 你 怎么 理解 粒度 这 个 术语 ? 

定义 术语 点 类 型 和 区 间 类 型 。 

尽 可 能 多 地 列 出 用 一 个 DURING 属性 替代 FROM-TO 属性 对 有 什么 优点 。 

设 i 是 INTERVAL_INTEGER 类 型 的 值 。 写 一 个 表达 式 来 表示 将 i 向 两 边 扩 展 得 到 的 区 间 (比如 
[5: 7] 扩展 成 [2: 10]) 。 在 什么 情况 下 你 的 表达 式 的 运行 时 评估 会 失败 ? 

同样 ， 设 i 是 INTERVAL_INTEGER 类 型 的 值 。 写 一 个 表达 式 来 表示 代表 了 i 中 间 三 分 之 一 的 区 间 
(可 以 假设 COUNT (i) 是 3 的 倍数 ) 。 

设立 、 刀 和 避 是 区 间 ， 存 在 一 个 区 间 i4 是 由 满足 以 下 条 件 的 每 个 点 p 组 成 的 ; PE 了 或 者 Peiz2 或 
者 pe 闻 。 写 出 一 个 表达 式 来 生成 if。 

如 果 a 和 4 是 关系 (或 者 集合 ) ， 那 么 下 面 的 恒等式 成 立 : 


a INTERSECT b ¥ a MINUS ( a MINUS b ) 


但 如 果 a 和 韦 是 区 间 上 述 恒等式 是 否 依旧 成 立 ? 

举例 (1) 有 两 个 区 间 属 性 的 关系 (时 态 的 或 者 其 他 的 ); (2) 有 三 个 区 间 属 性 的 关系 ; (3) 只 由 
区 间 属 性 组 成 的 关系 。 

关系 + 有 两 个 不 同 的 区 间 属 性 Al 和 A2。 证 明 或 反 驶 以 下 命题 : 

UNPACK (UNPACK r ON Al) ON A2 = UNPACK (UNPACK r ON A2) ON Al 


PACK (PRCK r ON Al) ON A2 = PACK (PACK r ON A2) ON Al 


给 定 如 下 关系 变量 : 


FEDERAL GOVT { PRESIDENT, PARTY, DURING } 
STATE_GOVT { GOVERNOR, STATE, PARTY, DURING } 


语义 不 需 加 以 说 明 (两 个 DURING 属性 都 假设 为 INTERVAL_DATE 类 型 ， 这 里 我 们 忽视 一 个 事 
实 ， 即 总 统 和 州长 的 任期 通常 是 以 年 计 而 非 以 天 计 ) 。 现 在 假设 我 们 要 得 到 的 结果 如 下 : 


RESULT { PRESIDENT, GOVERNOR, STATE, PARTY, DURING } 


一 个 元 组 当 且 仅 当 满足 下 面 要 求 时 它 才 会 出 现在 这 一 结果 中 : 指定 的 总 统 和 指定 的 州长 都 属于 指定 
的 党 ， 且 在 职 时 间 重 释 (在 该 题 中 特 指 DURING 重 普 )。 写 出 一 个 适合 的 表达 式 来 获得 这 个 结果 。 
有 一 个 区 间 属 性 的 关系 变量 ， 对 它 进行 归并 时 ， 不 把 这 个 区 间 属 性 保留 在 归并 后 的 形式 中 。 试 举 一 
例 。 
给 出 一 个 U_INTERSECT 的 例子 ， 要 求 结果 的 基数 要 大 于 任何 一 个 操作 数 的 基数 。 
对 操作 符 U_JOIN， 为 了 简单 起 见 ， 假 设 归并 和 反 归 并 都 只 在 一 个 属性 4 上 执行 。 证 明 下 面 的 恒 等 
式 有 效 : 
USING A 4 rl JOIN r2 > 
二 WITH {( rl RENAME A AS X ) AS Tl ， 
( r2 RENAME A AS Y ) RS TY2 ， 
( Tl JOIN T2 ) AS T3, 
( T3 WHERE X OVERLAPS Y ) AS T4 ， 
( EXTEND T4 ADD (其 INTERSECT Y ) AS A ) AS T5 ， 
T5 { ALL BUT X, Y } AS T6 : 
PACK T6 ON a 
同时 证 明 ， 如 果 r/ 和 驴 最 初 都 在 A 上 归并 ， 则 最 后 一 步 归 并 是 没有 必要 的 。 注 意 : 其 中 在 EX- 
TEND 一 步 中 的 INTERSECT 操作 符 是 区 间 的 INTERSECT 而 非 关 系 的 。 
定义 6NF。 它 作为 “第 六 ”范式 , 与 5NF 的 “第 五 ”范式 是 否 是 相同 的 ? 
讨论 :“ 移 动 点 NOW” 不 是 数值 而 是 一 个 变量 。 
按照 23.2 节 中 发 货 的 设计 ， 写 出 以 下 查询 的 Tutorial D 表达 式 : 
1) 取得 当前 至 少 可 以 供应 两 种 不 同 零件 的 供应 商 的 供应 商号 ， 并 且 显 示 出 每 个 供应 商 可 以 满足 这 
个 条 件 的 开始 日 期 。 
2) 取得 当前 不 能 供应 至 少 两 种 不 同 零件 的 供应 商 的 供应 商号 ， 并 且 显 示 出 每 个 供应 商 不 能 供应 两 
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种 零件 的 开始 日 期 。 


23.17 用 自己 的 语言 解释 宛 余 、 迁 回 以 及 矛盾 问题 。 
23. 18 用 自己 的 语言 解释 (1) PACK ON 约束 ，(2) WHEN/THEN 约束 ，(3) U_key 约束 。 解 释 经 典 的 


码 是 如 何 被 视 为 U_key 的 一 个 特例 的 。 
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第 24 章 ”基于 逻辑 的 数据 库 


24.1 引言 


20 世纪 80 年 代 中 期 前 后 ， 在 数据 库 研 究 领域 出 现 了 一 个 重要 的 研究 方向 ， 这 就 是 基于 逻辑 
的 数据 库 系 统 。 这 时 有 关 逻 辑 数据 库 、 推 理 DBMS 、 专 家 DBMS 、 演 绎 DBMS 、 知 识 库 、 知 识 库 
管理 系统 (KBMS ) 、 数 据 模型 逻辑 和 递归 查询 处 理 等 的 论文 相继 发 表 。 然 而 ， 很 难 把 这 些 术语 
和 思想 同 熟 悉 的 数据 库 术 语 和 概念 联系 起 来 ; 而 且 也 很 难 从 传统 数据 库 的 角度 理解 其 潜在 的 研究 
动机 。 所 以 ， 从 传统 的 数据 库 思 想 和 原理 去 解释 所 有 这 些 问 题 就 变 得 迫切 。 本 章 试 图 解决 这 一 
问题 。 

我 们 的 目标 是 从 传统 数据 库 的 角度 去 解释 什么 是 基于 逻辑 的 系统 ， 而 并 不 是 就 逻辑 谈 逻 辑 。 
所 以 ， 当 我 们 介绍 有 关 逻 辑 的 新 思想 时 ， 会 用 传统 的 数据 库 术语 去 解释 它 ， 这 样 是 可 能 的 ， 也 是 
合适 的 〈 当然 ， 本 书 中 已 经 讨论 了 一 些 有 关 逻 辑 的 概念 ， 特 别 是 在 第 8 章 介 绍 关系 演算 时 。 关 系 
演算 直接 是 基于 逻辑 的 。 但 基于 逻辑 的 系统 中 用 到 的 逻辑 概念 要 远 不 止 这 些 ) 。 

本 章 的 内 容 如 下 : 24. 2 节 将 简单 地 概述 ， 并 介绍 一 些 历史 ; 24.3 节 和 24.4 节 分 别 简单 地 介 
绍 命题 演算 和 谓词 演算 ; 24. 5 节 介绍 所 谓 的 数据 库 证 明理 论 (proof-theoretic) ; 24. 6 节 介绍 演绎 
DBMS; 24.7 节 介绍 递归 查询 过 程 的 一 些 方法 ; 最后，24. 8 节 对 本 章 作 了 小 结 。 


24.2 综述 


对 数据 库 理论 和 逻辑 之 间 的 关系 的 研究 要 至 少 追 溯 到 20 世纪 70 年 代 后 期 ， 关 于 这 一 时 期 的 
论文 可 参看 [24.3] 、[24.4] 和 [24.8]。 然 而 ， 近 来 对 这 一 领域 兴趣 大 量 增加 的 主要 原因 是 在 
1984 年 Reiter 发 表 的 一 篇 具有 里 程 碑 意 义 的 论文 (参看 [24. 10] ) 。 在 这 篇 论文 里 ，Reiter 认为 
传统 的 数据 库 是 模型 理论 。 不 严格 地 讲 ， 他 认为 : 

a) 在 任何 时 候 ， 数 据 库 都 可 看 作 一 系列 明确 的 〈 比 如 数据 ) 关系 ， 每 一 个 关系 都 包括 一 系 
列 明 确 的 元 组 ; 

b) 执行 一 个 查询 就 是 对 这 些 确定 的 元 组 和 关系 执行 一 些 指 定 的 公式 ( 如 真 值 表 达 式 (truth- 
valued expression ) ) 。 

注意 : 我 们 将 在 24. 5 节 更 精确 地 解释 “模型 理论 ”这 一 术语 。 

Reiter 还 认为 ， 一 个 可 替换 的 证 明理 论 的 观点 在 某 些 方面 是 可 能 的 ， 并 且 是 很 好 的 。 不 严格 
地 讲 ， 它 是 指 : 

a) 在 任何 时 候 ， 数 据 库 都 可 看 作 一 系列 公理 的 集合 (相对 于 基本 关系 中 的 域 ( domains” ) 
和 元 组 及 某 些 所 谓 的 “演绎 ”公理 来 说 ， 就 是 “基本 ”公理 (ground axiom) ) ; 

b) 执行 一 个 查询 就 是 证 明 一 些 确定 的 公式 是 这 些 公理 的 逻辑 结果 ， 或 者 说 ,证 明 它 是 一 些 
定理 。 

注意 : 在 24.5 节 将 更 加 精确 地 解释 “证 明理 论 ” 这 一 术语 ， 它 能 够 立刻 指出 证 明理 论 的 观 
点 和 我 们 将 数据 库 描述 成 是 真 命题 集合 非常 接近 。 

下 面 有 一 个 很 适合 的 例子 ， 考 虑 如 下 基于 供应 商 - 零件 数据 库 的 关系 演算 查询 : 


SPX WHERE SPX.QTY > 250 
( 当然 ， 这 里 的 SPX 是 定义 在 供 货 表 上 的 范围 变量 ) 用 传统 〈 即 模型 ) 理论 解释 ， 供 货 表 


中 的 元 组 一 个 接 一 个 地 执行 语句 “QTY >250" ， 查 询 结果 仅仅 包括 供 货 表 中 一 些 计 算 结果 为 真 
值 的 元 组 。 相 比 之 下 ， 用 证 明理 论 解释 ， 我 们 就 把 供 货 表 中 的 元 组 〈 包 括 其 他 的 项 ) 看 作 是 一 





G@G， 为 了 和 这 一 领域 的 其 他 著作 的 写法 相 一 致 ， 在 本 章 中 我 们 使 用 术语 domain 而 不 是 我 们 首选 的 术语 type。 
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定 “ 逻 辑 理 论 ” 的 公理 ; 在 这 一 理论 里 ， 我 们 用 定理 证 明 技 术 去 决定 范围 变量 SPX 取 哪 些 可 能 
的 值 时 ， 其 逻辑 结果 为 公式 “SPX. QTY > 250”。 此 查询 结果 即 由 SPX 的 这 些 特殊 值 构成 。 
当然 ， 这 个 例子 非常 简单 ， 我 们 很 难 辨别 这 两 种 解释 之 间 的 差别 。 但 是 ,证 明 〈 即 证 明理 
论 的 解释 ) 的 推理 机 制 显然 比 这 个 简单 的 例子 表达 的 要 复杂 得 多 ， 它 能 解决 那些 经 典 关系 系统 
所 不 能 解决 的 问题 ， 而 且 这 一 证 明理 论 还 有 另外 的 很 吸引 人 的 特征 (参看 [24. 10] ) 。 
描述 统一 性 : 用 它 定义 的 数据 库 语 言 中 ， 基 本 关系 中 的 元 组 和 域 值 、“ 演 绎 公理 ”、 查 询 
和 完整 性 约束 基本 上 用 统一 的 方法 描述 。 
sa 操作 统一 性 : 它 为 各 种 各 样 明显 不 同 的 问题 的 统一 操作 提供 了 一 个 基础 ， 这 包括 查询 优化 
(尤其 是 语义 优化 ) 、 完 整 性 约束 的 实施 、 数 据 库 设计 (依赖 理论 ) 、 程 序 正确 性 证 明和 其 
他 的 问题 。 
s 语义 建 模 : 它 为 各 种 基本 模型 语义 的 扩充 提供 了 坚实 的 基础 。 
sa 扩充 应 用 : 最 后 ， 它 为 处 理 用 那些 经 典 的 方法 很 难处 理 的 问题 提供 了 基础 ， 例 如 ， 对 于 析 
取信 息 处 理 〈 如 ， 供 应 商 S5 或 者 供应 了 零件 Pl 或 者 供应 了 零件 P2 ， 但 不 知道 它 供应 了 
哪 一 个 ) 。 
演绎 公理 
下 面 将 简单 扼要 地 解释 演绎 公理 这 一 概念 (或 者 叫 推理 规则 )。 基 本 说 来 ， 一 个 演绎 公理 就 
是 一 个 规则 ， 它 可 从 给 定 的 事实 推断 别 的 事实 。 例 如 ， 给 定 事实 “Anne 是 Betty 的 母亲 ”和 
“Betty 是 Celia 的 母亲 ”， 这 里 存在 一 个 明显 的 演绎 公理 ， 从 中 我 们 推断 Anne 是 Celia 的 祖母 。 
因此 ， 用 前 面 所 讲 的 理论 ， 就 可 以 把 这 个 演绎 DBMS 中 的 两 个 给 定 的 事实 描述 为 关系 中 的 元 
组 ， 即 : 


MOTHER_OF 
这 两 个 事实 规定 了 此 系统 的 基本 公理 。 我 们 再 假设 系统 中 以 如 下 的 形式 给 出 这 一 演绎 公理 : 


IF MOTHER OF ( x, y ) AND ， MOTHER OF ( y, 2 ) 
THEN GRANDMOTHER OF ( x, z ) 
END IF 


(以 上 为 假设 也 简化 的 语法 ) 。 现 在 ， 用 24. 4 节 介 绍 的 方法 ， 系 统 把 演绎 公理 所 表达 的 规则 
应 用 于 上 述 基本 公理 中 的 数据 ， 从 而 推导 出 GRANDMOTHER_OF (Anne，Celia) 的 结果 。 这 样 
用 户 就 可 查询 如 下 问题 :“ 谁 是 Celia 的 祖母 ?” 或 “ 谁 是 Anne 的 孙女 ?7”( 或 者 精确 到 “Anne 是 
谁 的 祖母 ?”) 。 

现在 把 前 面 的 思想 与 传统 的 数据 库 的 概念 联系 起 来 。 从 传统 的 术语 讲 ， 演 绎 公理 可 以 认为 是 
一 种 视图 定义 ， 例 如 : 


VAR GRANDMOTHER OF VIEW 
{ MX.MOTHER AS GRANDMOTHER, MY .DAUGHTER AS GRANDDAUGHTER } 
WHERE MX.DAUGHTER = MY .MOTHER ; 
(这 里 特别 使 用 关系 演算 的 形式 ; MX 和 MY 分 别 是 定义 在 MOTHER_OF 上 的 范围 变量 )。 
上 面 所 述 查 询 现在 可 基于 视图 概念 重 写 如 下 : 


GX.GRRANDMOTHER WHERE GX.GRANDDAUGHTER = NAME ('Celia') 
GX.GRRNDDRUGHTER WHERE GX.GRANDMOTHER = NAME ('Anne') 


(GX 是 定义 在 GRANDMOTHER_OF 上 的 范围 变量 ) 。 

到 目前 为 止 ， 我 们 所 讲 的 都 只 不 过 是 对 一 些 熟 悉 的 例子 给 出 不 同 语法 和 人 解释。 但 是 ， 在 下 一 
节 将 看 到 ， 实 际 上 在 基于 逻辑 的 系统 和 更 多 传统 的 DBMS 之 间 的 一 些 重要 的 区 别 不 能 用 这 些 简 
单 的 例子 解释 清楚 。 
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24. 3 ”命题 演算 


在 本 节 和 下 一 节 ， 我 们 对 一 些 基本 的 逻辑 思想 作 简单 的 介绍 。 本 节 讲 命题 演算 ， 下 一 节 讲 谓 
词 演算 。 应 当 指 出 ,命题 演算 本 身 并 不 是 最 重要 的 ; 本 节 真 正 的 目的 仅仅 是 为 下 一 节 的 理解 铺 平 
道路 。 同 时 ， 这 两 节 合 起 来 是 为 本 章 后 面 几 节 提 供 基 础 。 

这 里 ， 大 家 需要 熟悉 布尔 代数 的 概念 。 为 了 引用 的 需要 ， 下 面 列 出 了 一 些 将 用 到 的 布尔 代数 
的 法 则 ， 

和 分 配 律 : 


fAND (9OR h 
foR (gaANDh 


摩根 (De Morgan) 律 : 


NOT (faND9) ¥ ( NOTf)OR (Nor 9g) 
NOT (f OR g) 至 {( NOTFfF)AND ( NOTg) 


这 里 ， 人 8 和 六 都 是 任意 的 布尔 表达 式 。 

下 面 ， 谈 谈 逻辑 本 身 。 逻 辑 可 被 定义 为 规范 的 推理 方法 。 因 为 它 是 规范 的 ， 所 以 ， 它 能 用 来 
执行 规范 的 任务 。 如 ， 只 要 检查 作为 每 一 步 结果 的 变 元 结构 ， 就 能 测试 这 个 变 元 的 正确 性 〈 即 ， 
不 必 注 意 这 些 步骤 本 身 ) 。 尤 其 因为 它 是 规范 化 的 ， 故 它 可 以 机 械 化 一 一 即 ， 它 可 以 设计 成 程 
序 ， 由 机 器 所 应 用 。 

一 般 地 讲 ， 命 是 演算 和 谓词 演算 是 两 个 特殊 的 逻辑 形式 (实际 上 ， 前 者 是 后 者 的 子 集 )。 相 
对 于 任何 符号 计算 的 系统 而 言 ,“ 演 算 ” 仅 是 一 般 的 术语 ; 目前 情况 下 ， 所 涉及 的 各 种 计算 是 一 
定 公 式 或 表达 式 的 真 值 〈 真 或 假 ) 计算 。 

1. 项 

假设 有 一 些 对象 的 集合 ， 称 为 常量 。 对 这 些 常量 ， 我 们 可 作 多 项 说 明 。 在 数据 库 用 语 里 ， 常 
量 是 域 中 的 值 ， 语 句 可 能 是 诸如 “3 >2” 的 布尔 表达 式 。 把 项 定义 成 包含 常量 (constants”) 的 
语句 ， 并 且 : 

1) 项 不 包含 任何 逻辑 连接 词 或 者 括号 ; 

2) 可 以 明确 地 计算 项 的 结果 为 真 或 假 。 

例如 ,， “供应 高 S1 在 伦敦 "、“ 供 应 商 S2 在 伦敦 ”和 “供应 商 S1 供应 零件 P1” 都 是 项 (用 
通常 的 样本 值 计 算 ， 其 值 分 别 为 真 、 假 和 真 )。 相 比 之 下 , “供应 商 S1 供应 零件 p 〈P 是 一 个 变 
量 )” 和 “供应 商 S5 在 未 来 某 一 时 刻 供应 Pl1” 就 不 是 项 ， 因 为 它们 不 能 明确 地 计算 出 取 真 值 还 
是 取 假 值 。 

2. 公式 

下 面 ， 我 们 定义 公式 的 概念 。 命 题 演 算 (更 一 般 地 讲 ， 是 谓词 演算 ) 公式 是 以 查询 表达 式 
的 形式 出 现在 数据 库 中 的 。 


AND OR 


) 至 (ff 9 ) ( f AND 
) = (foOR 9 ) AND ( 工 OR 


hn ) 
h ) 


<formula> 
:= <term> 
NOT <term> 
«term> AND <formula> 
<term> OR <formula> 
<term> 已 <formula> 


<term> 
3 :一 <atomic formula> 
| ( <formula> ) 


公式 的 计算 是 基于 项 的 真 值 以 及 连接 谓词 真 值 表 。 注 意 : 
1) 一 个 原子 公式 是 一 个 布尔 表达 式 ， 其 中 没有 连接 词 ， 也 不 包含 括号 。 





OG 更 确切 的 讲 ， 常 量 的 名 字 ， 或 者 是 包含 常量 的 文字 。 在 许多 文献 中 它们 的 区 别 并 不 明确 。 
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2) 符号 “=>” 表 示 逻 辑 蕴 含 连 接 。 表 达 式 /==>g 在 逻辑 上 等 价 于 表达 式 (NOT /) OR g。 注 
意 在 第 8 章 或 其 他 章节 里 ， 我 们 使 用 “IF…THEN…END IF” 表 示 这 个 连接 。 

3) 为 了 表达 一 个 请 求 的 计算 顺序 ， 通 常 对 这 些 连 接 词 规定 优先 次 序 ( 即 NOT、AND、OR.、 
过 >， 由 高 到 低 的 次 序 ) 来 减少 要 使 用 括号 的 数量 。 

4) 一 个 命题 ， 就 是 上 面 定义 的 一 个 公式 (为 了 与 下 一 节 保 持 一 致 性 ， 这 里 使 用 了 术语 “ 公 
式 ”)。 

3. 推理 规则 

下 面 讨论 命题 演算 的 推理 规则 。 这 样 的 规则 有 很 多 。 其 中 每 一 条 规则 都 可 表述 为 下 述 形式 的 


Ff=9 


(这 里 f 和 g 是 公式 ， 符 号 F 读 作 “总 是 有 ”; 为 了 能 产生 某 些 语句 
句 ， 的 确 需要 这 样 的 符号 ) 。 下 面 就 列举 一 些 推理 规则 : 

IUD)F(tfRAND9) 人 之 上 

2) 上 + 之 (foOR9 ) 

FEF((fSg9)AND(g93h))F(EDL) 

4FE(fAND(f29I))D9 


注意 : 这 一 推理 规则 特别 重要 。 这 叫 假 言 推理 规则 。 非 正式 地 讲 ， 其 含义 是 如 果 j 为 真 ， 且 
蕴含 8， 则 8 一定 为 真 。 例 如 ,下 面 的 a 和 4b 都 为 真 ， 

a) 我 没有 钱 。 

b) 如 果 我 没有 钱 ， 那 我 就 不 得 不 刷 碟 子 。 
则 我 们 就 一 定 能 推断 c 也 为 真 : 

c) 我 不 得 不 刷 碟 子 。 


即 由 语句 推导 出 的 语 





下 面 的 2 条 紧 接 着 上 面 的 推理 规则 : 
5)E(f (gh))((fANDg)h) 
606)F((foR9 ) RND (Nor goRh) ) 之 (foRh ) 


注意 : 这 是 另 一 个 特别 重要 的 规则 ， 叫 作 归 结 规 则 。 在 下 面 要 讲 的 “证 明 ” 一 小 节 和 第 
24. 4 节 将 对 此 详细 讨论 。 

4. 证 阴 方 法 过 程 

现在 ， 我 们 讨论 形式 证 明 的 方法 问题 (在 命题 演算 的 范畴 )。 这 就 是 判定 一 个 给 定 的 公式 g 
(结论 conclusion) 是 否 是 另 一 些 给 定 的 公式 户 、 尼 、…, 所 (前提 premises” ) 的 逻辑 结果 ， 用 
符号 表示 就 是 : 


fl，f2，...，fn FF 9 


( 读 作 “从 亡 、 户 、…, 所 推导 出 8”。 注 意 这 里 使 用 的 另 一 个 元 语言 符号 “ FF”) 。 这 种 基本 
方法 叫做 前 向 推理 (forward chaining) 。 前 向 推理 就 是 对 这 些 前 提 、 由 这 些 前 提 导 出 的 公式 、 由 
这 些 公式 导出 的 公式 ， 等 等 重复 运用 推理 规则 ， 直 到 推导 出 所 需要 的 结论 ; 或 者 说 这 一 过 程 就 是 
前 面 提 到 结论 的 “ 正 向 链 ”。 然 而 ， 对 这 一 基本 的 论题 ， 下 面 还 有 几 个 证 明 思 路 : 

1) 附加 一 个 前 提 : 如 果 8 是 p=q 的 形式 , 采用 pp 作为 附加 的 前 提 ， 并 表明 9 可 从 给 定 的 前 
提 及 p 推导 出 来 。 

2) 反 向 推理 : 不 直接 去 证 明 p=>q， 而 是 去 证 明 其 逆 否 命题 ， 即 NOT 4 一 NOT P。 

3) 反 证 法 : 不 是 直接 去 证 明 p 二 9， 而 是 先 假设 p 和 NOT 4 为 真 ， 再 推导 出 相互 矛盾 的 结果 。 





OO ”也 可 以 写作 premisses (单数 形式 为 premiss)。 
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4) 归结 : 这 种 方法 要 使 用 归结 推理 规则 (如 上 述 的 第 6 条 推理 ) 。 

现在 我 们 来 具体 地 讨论 归结 规则 ， 它 有 着 广泛 的 应 用 (特别 是 它 可 以 推广 到 谓词 演算 的 情 
况 。 参 见 24.4 节 )。 

首先 要 注意 ， 归 结 规则 是 很 有 效 的 ， 可 以 运用 它 消除 一 些 子 公式 。 如 ， 给 出 两 个 公式 ; 


f oRg and NOT g ORHh 
我 们 可 以 删 去 g 和 NOT g， 得 到 如 下 简化 的 公式 : 
f oRh 


特别 地 ， 若 有 f OR g 和 NOT g ( 即 h 取 真 值 )， 则 可 以 导出 /。 
因此 ， 一 般 情况 下 ， 这些 规 则 运用 在 与 (AND) 连接 的 两 个 公式 上 ， 并 且 每 一 个 公式 是 两 
个 子 公 式 的 或 (OR)。 下 面 ， 我 们 运用 这 一 归结 规则 ， 证 明 下 式 的 有 效 性 : 


A=3(B3C), NOrTDORA,BH-D=HC 


(这 里 A4、B8、C 和 DD 都 是 公式 )。 现 在 , 我们 将 结论 的 否定 形式 作为 附加 的 前 提 ， 并 把 每 个 
前 提 分 行列 出 : 


A=3(B=C) 
NOT D OR A 


NoT (DC) 

这 四 行 隐 含 着 与 (AND) 连接 。 

现在 把 每 一 行 转化 为 合 取 范式 ， 即 一 个 或 一 个 以 上 的 、 由 AND 连接 起 来 的 公式 ， 每 一 个 独 
立 的 公式 可 能 包含 NOT 和 OR ， 但 不 包含 AND (参看 第 18 章 ) 。 当 然 ， 第 二 、 三 行 已 符合 要 求 ， 
下 面 转化 其 他 两 行 。 首 先 我 们 根据 NOT 和 OR 连接 的 定义 ， 删 除 掉 所 有 的 符号 “之 "; 接着 ， 必 
要 的 时 候 运 用 分 配 律 和 摩根 律 ， 并 去 掉 完 余 的 括号 和 邻近 的 NOT， 这 样 得 到 


NOT A OR NOT B ORC 
NOT D ORA 


D mp Nor c 

接着 ， 对 于 任何 包括 AND 的 行 ， 把 它 转化 为 一 系列 独立 的 行 ， 每 一 行 是 一 个 由 AND 连接 的 公 
式 〔( 即 在 这 一 过 程 中 删 掉 AND)。 此 例 中 ， 这 一 步 仅 用 在 第 四 行 。 现 在 ， 前 提 看 起 来 如 下 所 示 : 

NOT A OR NOT B OR C 

NOT D OR A 

B 

D 

NOT C 

下 面 ， 我 们 开始 运用 归结 规则 。 先 选择 能 被 归结 的 两 行 ， 即 分 别 包 含 某 个 特殊 的 公式 及 其 否 
定形 式 。 我 们 选择 头 两 行 ， 它 们 分 别 包 含 NOT 4 和 4， 归 结 它们 ,得 到 : 

NOT D OR NOT B OR C 

B 


D 
NOT C 


注意 : 在 一 般 情况 下 ， 我 们 需要 保留 原始 的 两 行 ， 但 在 这 个 特殊 的 例子 里 ， 我 们 不 再 需要 它 
们 了 。 
再 一 次 选择 头 两 行 ， 运 用 这 一 规则 (归结 NOT 8 和 B)， 得 : 
NOT D ORC 
D 


NOT C 


还 是 选择 头 两 行 (NOT D 和 D), 得 : 
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C 
NOT C 


再 处 理 头 两 行 (NOT C 和 C) ; 最 后 的 结果 是 命题 的 空 集 (通常 表示 为 [ ] ) ， 这 是 一 对 巴 
盾 。 这 样 ， 通 过 反 证 法 ， 证 明 原 命题 是 无 效 的 。 


24.4 谓词 演算 


现在 讨论 谓词 演算 。 命 题 演算 和 谓词 演算 之 间 最 大 的 区 别 在 于 后 者 允许 公式 中 有 变量 ”和 量 
词 ， 这 使 得 它 的 功能 更 为 强大 ， 应 用 更 为 广泛 。 例 如 ， 语 句 “供应 商 S1 供应 零件 p” 和 “ 某 位 
供应 商 s 供应 零件 pz” 在 命题 演算 中 不 合法 ， 但 在 谓词 演算 中 它们 是 合法 的 公式 。 因 此 ， 谓 词 演 
算 给 我 们 表达 如 下 的 查询 提供 了 基础 : “S1 供应 了 哪些 零件 ?” 或 “查询 供应 某 一 零件 的 供应 
商 "， 甚 至 “查询 根本 不 供应 任何 零件 的 供应 商 ”。 

1. 谓词 

正如 第 3 章 解 释 的 那样 ， 一 个 谓词 就 是 一 个 真 值 函数 ， 即 给 出 合适 的 自 变量 参数 ， 其 返回 结 
果 为 真 或 假 的 函数 。 例 如 ，“ > (x,y)” 一 一 更 一 般 地 写作 “x >y” 是 一 个 包含 有 两 个 参 
数 的 谓词 ， 即 x 和 y; 如 果 相 应 于 x 的 变 元 大 于 相应 于 y 的 变 元 ， 则 它 返 回 真 值 ; 和 否则， 返 同 假 
值 。 一 个 用 了 个 变 元 的 谓词 ( 即 ， 这 个 谓词 由 个 参数 所 定义 ) 叫做 元 谓词 。 一 个 命题 
(24. 3 节 所 讲 的 公式 ) 可 以 认为 是 零 元 谓词 ， 没 有 参数 ， 并 且 其 结果 明确 地 为 真 或 假 。 

假设 相应 于 “ =”、“ >”、“ 宇 ”等 的 谓词 是 固有 的 〈( 即 它们 是 定义 的 规范 系统 的 一 部 分 )， 
并 且 用 一 种 习惯 的 方式 将 使 用 它们 的 表达 式 写 出 来 。 当 然 ， 用 户 也 应 能 定义 他 们 自己 的 谓词 。 整 
个 问题 的 关键 就 是 : 实际 上 用 数据 库 的 术语 讲 ， 一 个 用 户 定义 的 谓词 对 应 一 个 用 户 定义 的 关系 变 
量 〈 从 前 面 几 章 我 们 也 可 以 了 解 这 一 点 ) 。 例 如 ， 供 应 商 的 关系 变量 S， 可 以 看 作 是 一 个 包含 四 
个 参数 的 谓词 ， 即 S#、SNAME、STATUS 和 CITY。 而 且 ， 表 达 式 S (S1，Smith，20，London ) 
和 S (S6，White，45，Rome) 分 别 表 示 该 谓词 结果 为 真 和 假 的 “实例 ” (或 者 说 是 实例 化 、 调 
用 )。 不 严格 地 说 ， 正 像 前 面 几 章 所 讲 的 那样 (特别 是 第 9 章 ) ， 我 们 可 以 把 这 些 谓词 ， 与 可 能 
的 完整 性 约束 (同时 也 是 谓词 ) 一 起 作为 数据 库 内 容 的 定义 。 

2. 合式 公式 

下 一 步 是 扩展 “公式 ”的 定义 。 为 了 各 免 与 前 面 几 节 讲 的 公式 (实际 上 ， 前 文中 的 是 特殊 
的 情形 ) 混淆， 现在 我 们 转 到 第 8 章 所 讲 的 合式 公式 (WFF) 这 一 术语 。 下 面 是 一 简单 的 合式 
公式 的 语法 : 

<wff> 

3 ;= <term> 

NOT ( <wff> ) 

( <wff> ) RND ( <wff> ) 

( <wff> ) OR ( <wff> ) 

( <wff> ) >» ( <wff> ) 


EXISTS <var name> ( <wff> ) 
FORALL <var name> ( <wrff> ) 





em [ NOT ] <pred name> [ ( <argument commalist> ) | 

注意 : 

1) 简单 地 讲 ， 一 个 项 ( < term > ) 可 能 不 是 “谓词 实例 ”( 如果 把 谓词 看 作 真 值 函 数 ， 那 
么 一 个 谓词 实例 就 是 那个 函数 的 调用 ) 。 每 一 个 变 元 ( < argument > ) 必须 是 一 个 常量 、 一 个 变 
量 名 或 一 个 函数 调用 ， 而 函数 调用 的 每 一 个 变 元 也 必须 是 这 样 。 在 零 元 谓词 里 可 以 删 去 变 元 列表 
( <argument commalist > ) (可 选 的 ) 及 相应 的 括号 。 注 意 : 为 了 WFF 能 使 用 包括 诸如 “+ (x， 
y)”( 更 一 般 地 写作 “x +y”) 的 计算 表达 式 ， 可 以 使 用 建立 在 作为 谓词 的 函数 之 上 的 函数 。 

2) 正如 24.3 节 讲 的 那样 ， 为 了 减少 因 表达 计算 顺序 而 引 人 的 括号 数目 ， 我 们 对 连接 词 使 用 





”更 确切 的 讲 是 变量 名 。 这 里 的 变量 是 指 逻 辑 变 量 ， 而 不 是 程序 语言 中 的 变量 ， 也 可 以 认为 是 第 8 章 中 讲 的 范围 
变量 。 
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优先 规则 ( 即 NOT、AND 、OR 、 僵 ， 按 优先 级 排列 ) 。 

3) 假设 大 家 熟悉 量词 EXISTS 和 FORALL。 注 意 : 这 里 讲 的 仅 是 一 阶 谓词 演算 ， 其 基本 意 
思 是 : (a) 它 没有 “谓词 变量 ”( 即 允许 值 是 谓词 的 变量 )， 因 此 (b) 谓词 本 身 并 没有 受到 量 
化 约束 。 具 体 请 看 第 8 章 练习 8. 8。 

4) 摩根 律 可 以 推广 应 用 到 合式 公式 ， 如 下 : 


NOT ( FORALL x ( £f)) = EXISTS x ( NOT ( 
NOT ( EXISTS x (上 上 ) ) ¥# FORALL x ( NOT ( 


这 一 点 也 已 经 在 第 8 章 讨 论 了 。 

5) 现在 重复 一 下 第 8 章 另 一 个 要 点 : 在 一 个 给 定 的 WFF 里 ,每 一 个 变量 的 引用 要 么 是 自由 
的 ， 要 么 是 约束 的 。 如 果 一 个 引用 是 约束 的 ， 当 且 仅 当 (a) 它 紧 跟 EXISTS 或 者 FORALL 之 后 
( 即 它 表 示 约 束 的 变量 ) ; (b) 它 位 于 量词 的 范围 内 并 表示 可 适用 的 约束 变量 。 如 果 一 个 变量 引 
用 是 自由 的 ， 当 且 仅 当 它 不 是 约束 的 。 

6) 一 个 封闭 的 合式 公式 不 包含 自由 变量 。( 实际 上 ， 这 是 一 个 命题 。) 一 个 开放 的 合式 公式 
就 是 一 个 不 封闭 的 合式 公式 。 

3. 释义 和 模型 

合式 公式 的 含义 是 什么 ? 为 了 形式 化 地 回答 这 个 问题 ， 我 们 引入 了 释义 (interpretation) 这 
一 概念 。 一 系列 合式 公式 的 释义 如 下 定义 ， 

e 首先 ， 我 们 指定 要 解释 这 些 合式 公式 所 需要 的 论 域 (universe of discourse ) 。 或 者 说 ， 在 

(a) 规范 系统 所 允许 的 常量 (用 数据 库 的 术语 讲 ， 就 是 域 值 ) 和 (b) 真实 世界 的 对 象 之 
间 指 定 一 个 映像 。 每 一 个 单个 的 常量 明确 地 对 应 于 论 域 中 的 一 个 对 象 。 

ea 第 二 ， 根 据 论 域 中 的 对 象 ， 为 每 个 谓词 指定 一 个 含义 。 

w 最后， 根据 论 域 中 的 对 象 ， 为 每 个 函数 指定 一 个 含义 。 

这 样 ， 这 一 释义 就 包括 论 域 、 论 域 中 的 对 象 与 常量 个 体 之 间 的 上 映像、 根据 论 域 对 谓词 和 函数 
所 作 的 定义 。 

下 面 举 例 说 明 。 设 论 域 是 整数 集 10，1，2,，3, 4, 5| ,常量 2 以 明显 的 方式 对 应 于 此 论 域 
中 的 某 对 象 ， 设 谓词 “x >y” 定 义 成 通常 的 含义 (车 需要 的 话 ， 也 可 定义 诸如 “+”、“-~” 等 
函数 )。 现 在 ， 我 们 给 下 面 的 合式 公式 赋 真 值 ， 如 下 所 示 : 


工 ) ) 
f)) 


2>1 : TRUE 
2>3 : FALSE 
EXISTS x (x> 2 ) : TRUE 
FORALL x (X> 2 ) : FALSE 


注意 ， 存 在 其 他 的 释义 是 可 能 的 。 例 如 ， 我 们 可 以 给 论 域 取 一 系列 安全 分 类 级 别 ， 如 下 : 


destroy before reading (level 5) 


destroy after reading (level 4) 
top secret (level 3) 
secret (level 2) 
confidential {level 1) 
unclassified {level 0) 


这 里 谓词 “> ”就 表示 “更 安全 的 〈 即 更 高 的 安全 级 别 )”。 

现在 ， 你 可 能 觉得 上 面 的 两 个 可 能 的 释义 在 形式 上 是 一 样 的 ， 即 在 它们 之 间 建 立 一 一 对 应 关 
系 是 可 能 的 ， 且 从 更 深 一 层次 讲 ， 这 两 个 释义 其 实 就 是 一 个 。 但 是 必须 知道 ， 释 义 可 以 存在 真正 
的 不 同 。 例 如 ， 我 们 把 论 域 定义 为 0 ~5 的 整数 ， 但 是 定义 谓词 “> ”为 相等 〈 当然 ， 这 样 做 会 
引起 混淆 ， 但 至 少 这 是 合法 的 )。 现 在 上 面 的 第 一 个 合式 公式 “2 > 1” 就 取 假 而 不 是 取 真 。 

另 一 点 必须 明确 的 是 ， 从 上 述 的 意义 讲 ， 这 两 个 释义 可 能 是 真正 的 不 同 ,但 是 对 某 些 给 定 合 
式 公式 集 ， 它 们 都 取 同 样 的 真 值 。 在 我 们 的 例子 里 ， 如 果 删 除 合式 公式 “2 > 1”， 则 对 于 “>” 
的 两 个 不 同 的 定义 ， 就 会 出 现 这 种 情况 。 

还 需要 注意 的 是 ， 这 一 小 节 之 前 所 讨论 的 合式 公式 都 是 封闭 的 合式 公式 。 这 是 因为 给 定 一 个 
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释义 ， 对 每 一 个 给 定 的 封闭 的 合式 公式 ， 总 能 明确 地 给 它 赋 一 个 真 值 。 但 是 ， 开 放 的 合式 公式 的 
真 值 依赖 于 赋 给 自由 变量 的 值 。 例 如 ， 开 放 的 合式 公式 : 


X > 3 


很 明显， 只 要 zx 比 3 大 ， 则 其 值 为 真 ， 否 则 其 值 为 假 (无 论 “ 大 于 ”和 “3” 在 这 里 表示 
什么 ) 。 

现在 ， 我 们 来 解释 被 释义 的 一 组 合式 公式 〈 必 须 是 封闭 的 ) 的 模型 ， 对 于 这 个 释义 ， 所 有 
其 中 的 合式 公式 取 值 为 真 。 我 们 给 出 四 个 合式 公式 : 

2>1 

2>3 


EXISTS x ( 


X>2 ) 
FORALL x (X > 2 


) 

用 0 ~5 的 整数 的 话 ， 上 面 给 出 的 两 个 释义 并 不 是 这 些 合式 公式 的 模型 。 因 为 在 那 种 释义 下 ， 
其 中 某 些 合 式 公式 结果 为 假 。 相 比 之 下 ， 上 面 的 第 一 个 释义 〈 即 “> ”定义 为 “大 于 ") 应 该 
是 下 面 合式 公式 的 模型 : 


2 > 1 
3 > 2 
EXISTS x ( 


) 
FORALL x ( OR NOT (x>2)) 


最 后 还 要 注意 ， 因 为 对 于 给 定 的 一 组 合式 公式 能 接受 几 种 释义 ， 且 其 中 的 合式 公式 为 真 ， 因 
此 它 就 有 几 个 模型 (一 般 地 讲 ) 。 所 以 ， 一 个 数据 库 可 能 有 多 个 模型 ， 用 模型 理论 的 观点 来 讲 ， 
一 个 数据 库 仅仅 是 一 组 合式 公式 。 具 体 见 24.5 节 。 

4. 子 旬 式 

像 任 何 一 个 命题 演算 公式 都 可 转化 为 合 取 范式 一 样 ， 任 何 一 个 谓词 演算 合式 公式 都 可 转化 为 
子 旬 式 ， 转 化 后 的 形式 被 认为 是 合 取 范式 的 扩展 形式 。 进 行 这 种 转化 的 动机 在 于 ， 我 们 可 以 把 归 
结 规 则 运用 于 构建 和 验证 证 明 。 

这 一 转化 过 程 如 下 (这 里 是 概括 性 的 内 容 ， 详 细 内 容 请 参看 [24.6] ) 。 通 过 举例 来 解释 这 
些 步骤 。 

FORALL x (PP (X ) AND EXISTS y ( FORALL 2 (9 (了 ，2z ) )》)) 

这 里 p 和 9g 是 谓词 ， x、 和 z 是 变量 。 

1) 像 24.3 节 那 样 删除 符号 “一 ”。 此 例 中 ， 这 个 转化 没有 影响 。 

2) 使 用 摩根 定律 ， 删 去 两 个 邻近 的 NOT。 移 动 NOT， 使 它 仅 应 用 于 项 ， 而 不 是 整个 合式 公 
式 。( 该 转化 仍 对 此 例 没 有 影响 。) 

3) 把 所 有 的 量词 都 移 到 前 面 ， 从 而 将 这 些 公 式 转化 为 前 束 范 式 。( 如 果 有 必要 ， 可 系统 地 
对 变量 重 命名 ): 

FORALL x ( EXISTS y ( FORALL 2z (p{x) ANDg(y,2))) ) 

4) 注意 一 个 有 存在 量词 的 量化 的 合式 公式 : 

EXISTS Vv ({ rr(v),) 

等 价 于 合式 公式 : 

r(a) 


其 中 a 为 未 知 常量 。 最 初 的 合式 公式 中 存在 a 这 样 的 未 知 常量 ， 我 们 不 知道 其 值 。 同 样 ， 对 
于 合式 公式 : 


FORALL u ( EXISTS v ( s (u,v))) 


等 价 于 合式 公式 : 
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FORALL U (Ss (urf(u) )) 


其 中 ,全 称 量词 4 的 函数 /是 未 知 的 。 这 里 常量 a 和 函数 了 分别 命 名 为 斯 科 林 (Skloem) 常 
最 和 斯 科 林 (Skloem) 函数 ， 这 一 命名 来 自 于 逻辑 学 家 T. A. Skloem (注意 ; 一 个 Skloem 常量 
仅 是 一 个 没有 变 元 的 Skloem 函数 ) 。 因 此 ， 下 一 步 就 是 通过 取代 相应 的 约束 变量 而 删除 存在 量 
词 。 其 中 ， 这些 变 量 由 下 式 的 量词 前 面 的 全 称 量 词 的 Skloem 函数 《任意 的 ) 所 限制 : 


FORALL x ( FORALL z (p(x)ANDg(f(x),z))) 

5) 现在 ， 所 有 的 变量 都 被 全 称 量词 约束 。 因 此 ， 我 们 习惯 上 可 以 将 所 有 的 变量 都 隐 含 为 全 
称 量词 约束 ， 删 除 所 有 的 显 式 量词 ; 

p(x)ANDg(f(x),z) 

6) 将 合式 公式 转化 为 合 取 范 式 ， 即 由 AND 连接 的 子 句 ， 每 一 子 句 只 可 能 有 NOT 或 OR， 


而 没有 AND。 此 例 中 ， 此 合式 公式 已 是 这 种 形式 。 
7) 删 去 AND， 把 每 个 子 句 写 在 独立 的 行 上 ， 如 下 : 


pt{lx) 
q(f(x),2) 


这 一 子 句 等 价 于 最 初 的 合式 公式 。 
注意 : 了 人 下 这 如 各 人 各 用 子 句 形式 的 一 个 合式 公式 的 一 般 形式 就 是 一 组 子 句 ， 
且 每 一 个 占 一 行 ， 形 式 如 下 : 


NOT Al OR NOT A2 OR ... OR NOT Am OR Bl OR B2 OR ... OR Bn 


这 里 4 和 8 都 是 正 项 。 我 们 可 以 转化 这 个 子 句 ， 如 下 所 示 : 

AI AND A2 AND ... AND Am = Bl OR B2 OR ... OR Bn 

如 果 最 多 有 一 个 B (n=0 或 1) ， 则 这 个 子 句 叫做 Horn 子 名 ， 它 是 以 逻辑 学 家 Alfred Hom 
的 名 字 命名 的 。 

5. 使 用 归结 规则 

下 面 讨论 基于 逻辑 的 数据 库 系统 对 查询 的 处 理 过 程 。 我 们 沿用 24. 2 节 最 后 的 那个 例子 。 首 先 ， 
有 谓词 MOTHER_OF， 它 包括 两 个 参数 ， 分 别 表示 母亲 与 女儿 ， 再 给 出 下 面 两 个 项 (谓词 实例 ): 


1) MOTHER OF ( Anne, Betty ) 
2) MOTHER OF ( Betty, Celia ) 
给 出 下 面 的 合式 公式 (演绎 公理 ) : 


3) MOTHER OF ( x, y ) AND MOTHER OF ( y，2 ) = 
GRANDMOTHER OF ( x, z ) 


(注意 这 是 一 个 Hom 子 句 )。 为 了 简化 归结 规则 的 运用 ， 我 们 删 去 上 式 中 的 符号 “二 ”。 


4) NOT MOTHER OF ( x, y ) OR NOT MOTHER OF ( y, 2 ) 
OR GRANDMOTHER | OF ( 了 5， 2 ) 


现在 证 明 Anne 是 Celia 的 祖母 一 一 即 如 何 回答 查询 “Anne 是 Celia 的 祖母 吗 ?”， 现 在 我 们 
将 需要 证 明 的 结论 的 否定 形式 作为 前 提 : 

5) NOT GRANDMOTHER OF ( Anne, Celia ) 

为 了 应 用 归结 规则 ， 必 须 能 找到 两 个 子 句 ， 分 别 包 含 一 个 合式 公式 及 它 的 否定 公式 ， 并 系统 


地 给 变量 赋值 。 这 样 的 赋值 是 合法 的 ， 因 为 这 些 变量 都 已 隐 含 为 全 称 量词 约束 ， 所 以 对 于 每 一 种 
变量 的 值 的 组 合 ， 单 个 的 合式 公式 〈 非 否定 的 ) 必须 为 真 。 注 意 : 寻找 一 系列 使 这 两 个 子 句 可 
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归结 的 值 的 过 程 叫 做 合 一 。 
下 面 用 例子 表明 上 述 过 程 如 何 进 行 ， 注 意 到 4 和 5 分 别 包含 项 GRANDMOTHER_OF (x,，z) 和 
NOT GRANDMOTHER_OF ( Anne ，Celia) 。 因 此 ， 我 们 用 Anne 取代 x， 用 Celia 取代 y 并 归结 ， 得 : 


6) NOT MOTHER OF ( Anne, y ) OR NOT MOTHER OF ( y, Celia ) 


第 二 条 包括 MOTHER_OF (Betty ，Celia) 。 我 们 用 Betty 取代 上 面 6 中 的 y 并 归结 ， 得 : 

7) NOT MOTHER OF ( Anne, Betty ) 

归结 上 面 的 7 和 1， 我 们 得 空子 句 集 [」， 从 而 矛盾 。 所 以 ， 起 初 查询 的 答案 应 是 “是 的 ， 
Anne 是 Ceila 的 祖母 ”。 

对 于 查询 “Anne 的 孙女 是 谁 ?” 又 怎么 样 呢 ? 首先 注意 到 ， 系 统 不 知道 孙女 ， 它 只 知道 祖 
母 。 我 们 可 增加 另 一 演绎 公理 : z 是 x 的 孙女 ， 当 且 仅 当 x* 是 z 的 祖母 (此 数据 库 中 不 允许 有 男 
性 ) 。 当 然 ， 也 可 以 把 这 个 问题 叙述 为 “Anne 是 谁 的 祖母 ?”。 我 们 来 讨论 后 面 -- 个 公式 。 前 提 
是 (和 以 前 一 样 ): 


1) MOTHER OF ( Anne, Betty ) 
2) MOTHER OF ( Betty, Celia ) 


3) NOT MOTHER OF ( x, y ) OR NOT MOTHER OF ( y, z ) 
OR GRANDMOTHER OF ( x, 2 ) 


我 们 引入 第 四 个 前 握 ， 如 下 : 


4) NOT GRANDMOTHER OF ( Anne, r ) OR RESULT ( 工 ) 


这 个 新 前 提 直 观 地 表明 要 么 Anne 不 是 任何 人 的 祖母 ， 要 么 有 某 个 人 符合 这 一 结果 (因为 
Anne 是 + 的 祖母 )。 我 们 希望 发 现 r 的 身份 。 可 如 下 进行 : 
首先 ， 用 Anne 取代 x,r 取代 z， 并 归结 上 面 的 3 和 4， 得 : 


5) NOT MOTHER OF ( Anne, y ) OR NOT MOTHER OF ( y, 2 ) 
一 OR RESULT ( 2z~) 


接着 ， 用 Betty 取代 y， 并 归结 上 面 的 5 和 1, 得 ; 
6) NOT MOTHER OF ( Betty, z ) OR RESULT ( 2 ) 


现在 ，Celia 取代 z， 并 归结 上 面 的 6 和 2, 得 : 


7) RESULT ( Delia ) 


因此 ，Anne 是 Celia 的 祖母 。 
注意 ; 如 果 给 出 一 个 附加 项 ， 如 下 : 


MOTHER OF ( Betty, Delia ) 
这 样 我 们 就 能 在 最 后 一 步 用 Delia (不 是 Celia) 取代 z， 得 : 
RESULT ( belia ) 


当然 ， 在 查询 结果 中 ， 用 户 期 望 看 到 两 个 名 字 。 这 样 ， 系 统 就 需要 运用 合 一 和 归结 过 程 去 生 
成 所 有 可 能 的 结果 。 进 一 步 的 细节 已 超出 本 讨论 的 范围 。 


24. 5 ”数据 库 的 证 明理 论 观点 
正 像 24. 4 节 解 释 的 那样 ， 一 个 子 名 就 是 下 述 形式 的 一 个 表达 式 : 


Al AND A2 AND ... AND Am 3 Bl OR B2 OR ... OR Bn 





9 
这 里 4 和 8B 都 是 下 述 形式 的 项 : 


(其 中 r 是 谓词 ，x1 ， 之 ,，…，xt 是 它 的 变 元 )。 参 看 [24.7]， 考 虑 该 一 般 结构 中 两 个 重要 
的 特殊 的 情况 : 


1) m= 0,n=1 


这 种 情况 下 ， 这 个 子 句 可 简单 地 写 为 : 


= Bi 
或 者 写 为 ( 删 去 蕴含 符号 ): 
rl( xl, x2, ..., xt ) 


其 中 r 为 谓词 ，x1 ， 台 ，…，xt 为 变 元 。 如 果 x 都 是 常量 ， 则 此 子 句 表 示 一 个 基本 公理 (ground 
axiom) ， 且 结果 一 定 为 真 。 在 数据 库 项 里 ， 这 样 的 语句 相对 应 于 关系 变量 R 的 一 个 元 组 ”。 谓 
词 7 相对 应 于 关系 变量 RR 的 “含义 ”， 本 书 的 其 他 一 些 地 方 解 释 过 这 一 点 。 例 如 ， 在 供应 商 和 零 
件数 据 库 里 ， 有 一 个 关系 变量 叫 SP， 它 的 意思 是 某 一 个 供应 商 〈S#) 以 某 一 数量 (QTY) 供应 
某 一 零件 (P#) 。 这 个 含义 相对 应 于 一 个 开放 式 合式 公式 ， 因 为 它 包 含 自由 变量 (S#，P#， 
QTY) 的 引用 。 相 比 之 下 ,元 组 (S1，P1，300) 一 一 其 变 元 都 是 常量 一 一 是 一 个 基本 公理 或 封 
闭 式 合式 公式 ， 它 表示 供应 商 S1 供应 了 300 个 零件 P1。 


2) m>0,n=1 


在 这 种 情况 下 ， 子 名 采用 下 述 形式 ; 


Al AND A2 AND ... AND Am = 8B 


这 叫做 演绎 公理 ， 蕴 含 符号 左边 的 谓词 是 右边 的 谓词 的 定义 (不 完全 定义 ) (可 参看 前 面 例 
子 中 的 GRANDMOTHER_OF 谓词 的 定义 ) 。 

或 者 ， 这 样 的 子 句 可 被 定义 为 完整 性 约束 (使 用 第 9 章 的 术语 ， 即 一 个 关系 变量 约束 )。 例 
如 ， 供 应 商 变量 S 有 两 个 属性 S# 和 CITY， 则 子 句 : 


S(s,ci)})ANDS(s,c2) = cl = c2 


表达 了 这 样 的 约束 : CITY 函数 依赖 于 S#。 注 意 这 里 固有 谓词 “= ”的 使 用 。 
正如 前 面 讨论 所 解释 的 那样 ， 关 系 (“基本 公理 ”) 中 的 元 组 、 导 出 关系 (“演绎 公理 ”) 及 
完整 性 约束 是 一 般 子 句 结构 的 特殊 情形 。 现 在 来 着 一 看 对 于 24.2 节 所 讲 的 数据 库 的 “证 明理 
论 ” 的 观点 ， 是 如 何 由 这 些 思想 导出 的 。 
首先 ， 数 据 库 的 传统 观点 被 认为 是 模型 理论 。 这 里 讲 “ 传 统 观点 " ， 是 指数 据 库 被 理解 为 由 
显 式 命名 关系 变量 的 集合 组 成 ， 每 一 个 关系 变量 又 由 一 系列 显 式 元 组 及 显 式 完整 性 约束 组 成 。 正 
是 基于 这 种 理解 ， 所 以 称 这 种 观点 为 模型 理论 。 看 下 面 的 解释 : 
m 基本 (underlying) 的 域 包括 值 或 常量 ， 它 们 被 假设 代表 “现实 世界 ” (更 精确 地 讲 ， 像 
24. 4 节 那 样 ， 是 某 种 释义 ) 中 一 定 的 对 象 。 这 样 它们 就 对 应 于 论 域 。 
a 关系 变量 (更 精确 地 讲 ， 是 关系 变量 头 部 ) 表示 一 系列 谓词 或 者 开放 式 合式 公式 ， 以 及 
这 些 合式 公式 在 此 论 域 上 释义 。 例 如 ， 关 系 变量 头 SP 表示 谓词 “供应 商 S# 以 数量 QTY 
供应 零件 Pl1”。 . 
am 给 定 的 关系 变量 里 的 每 一 个 元 组 表示 一 个 相应 谓词 的 实例 ， 即 表示 在 这 个 论 域 里 结果 明确 
为 真 的 命题 〈 一 个 封闭 的 合式 公式 ， 它 没有 变量 ) 。 





名” 或 者 相应 于 某 个 域 中 的 一 个 值 。 
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se 完整 性 约束 也 是 封闭 式 合式 公式 ， 并 且 它 们 在 同一 域 上 释义 。 所 以 ， 这 些 数 据 并 没有 
(不 可 能 ) 违背 这 些 约束 ， 这 些 约束 结果 必须 为 真 ， 同 样 ， 代 入 参数 时 ， 当 前 数据 库 的 什 
也 要 为 真 。 
e 元 组 和 完整 性 约束 在 一 起 就 被 看 作 一 组 公理 ， 它 定义 某 种 逻辑 理论 (不 严格 地 讲 ， 一 个 “ 理 
论 ” 在 逻辑 上 就 是 一 组 公理 ) 。 由 于 在 这 一 释义 里 ， 这 些 公式 为 真 ， 所 以 从 24. 4 节 所 述 的 意 
义 讲 ， 该 释义 就 是 逻辑 理论 的 模型 。 注 意 到 正如 前 一 节 所 指出 的 ， 这 个 模型 不 是 唯一 的 ， 即 
一 个 给 定 的 数据 库 可 能 有 几 个 释义 ， 从 逻辑 的 角度 讲 ， 所 有 这 些 释义 都 是 同样 有 效 的 。 
因此 ， 在 模型 理论 的 观点 里 ， 按 “模型 ”的 术语 讲 ， 数 据 库 的 含义 就 是 模型 。 并 且 由 于 有 
许多 可 能 的 模型 ， 故 有 许多 可 能 的 意义 (至少 从 理论 上 讲 是 这 样 的 )2 。 而 且 ， 在 模型 理论 观点 
下 的 查询 过 程 基本 上 就 是 计算 某 一 个 开放 的 合式 公式 的 过 程 。 这 一 过 程 是 为 了 发 现在 这 一 模型 
里 ， 合 式 公式 中 哪 一 个 自由 变量 使 得 这 个 合式 公式 取 真 值 。 
模型 理论 的 观点 内 容 很 丰富 。 然 而 ， 为 了 能 运用 24. 3 节 和 24. 4 节 所 讲 的 推理 规则 ， 就 必须 
采用 一 个 不 同 的 视角 。 在 这 个 视角 中 ， 数 据 库 被 明确 地 看 作 一 定 的 逻辑 理论 ， 即 作为 一 系列 公 
理 。 这 样 ， 数 据 库 的 意义 就 变 成 所 有 真 语句 的 精确 集合 ， 而 这 些 真 语句 是 从 一 些 公理 演绎 来 的 ， 
即 能 由 那些 公理 证 明 的 定理 ， 这 就 是 证 明理 论 的 观点 。 利 用 这 一 观点 ， 查 询 工 作 就 变 成 是 一 个 证 
明理 论 的 过 程 (任何 情况 下 ， 从 概念 上 讲 是 这 样 的 ; 但 是 ， 为 了 有 更 好 的 效率 ， 系 统 可 能 还 要 
使 用 更 多 的 传统 的 查询 技术 。24. 7 节 再 讲 这 一 点 ) 。 
注意 ; 从 前 面 一 段 可 以 得 出 ， 直 观 上 模型 理论 与 证 明理 论 的 观点 间 的 区 别 是 ， 在 模型 理论 的 
观点 中 ， 一 个 数据 库 有 许多 “意义 ”， 而 在 证 明理 论 的 观点 中 ， 一 个 数据 库 仅 有 一 个 “意义 ”。 
但 是 (a) 正如 前 面 指出 的 ， 在 模型 理论 中 ,数据 库 的 意义 是 真正 的 规范 的 意义 ,并 在 任何 情况 
下 ; (b) 一 般 地 讲 ， 如 果 数 据 库 包 含 任 何 一 个 否定 的 公理 ， 则 在 证 明理 论 情形 下 ， 数 据 库 只 有 
一 个 意义 就 不 再 成 立 参看 【24.5，24.6] 。 
证 明理 论 的 观点 中 ， 给 定数 据 库 的 公理 可 总 结 如 下 (参看 {24. 10] ): 
1) 基本 公理 相对 于 库 关系 变量 中 域 值 或 元 组 值 。 这 些 公理 有 时 组 成 了 所 谓 的 外 延 数据 库 
(相对 于 内 涵 数 据 库 ， 见 下 一 节 )。 
2) 每 一 个 关系 变量 的 “完整 公理 ” (completion axiom) 表明 ， 我 们 所 讲 的 关系 变量 中 有 效 
元 组 的 失效 可 被 解释 为 相对 于 此 元 组 的 命题 是 假 的 〈 当然 ， 实 际 上 ， 这 些 完整 化 公理 在 一 起 就 - 
构成 了 封闭 世界 假说 ， 这 在 第 6 章 和 第 9 章 已 经 讨论 了 )。 例 如 ， 供 应 商 变 量 S 不 包括 元 组 
(S6，White，45，Rome) 就 是 指 命题 “存在 供应 商 6 ， 它 的 名 字 是 White， 它 的 等 级 是 45， 它 
住 在 罗马 ”为 假 。 
3)“ 唯 一 命名 ”公理 ， 表 明 每 一 个 常量 都 不 同 于 其 他 的 任何 常量 ， 即 它 有 唯一 的 命名 。 
4) “ 域 闭 包 ”公理 ， 表 明 不 存在 数据 库 域 以 外 的 常量 。 
5) 一 组 定义 固有 等 价 谓词 的 基本 公理 。 需 要 这 组 公理 ， 是 因为 上 面 的 2、3、4 利用 了 等 价 
谓词 。 
现在 ， 我 们 对 模型 理论 和 证 明理 论 这 两 个 概念 之 间 的 基本 区 别 作 简短 的 小 结 。 首 先 ， 有 人 
说 , 仅 从 实用 的 角度 讲 ， 它 们 之 间 根 本 没有 什么 区 别 ， 至 少 从 今天 的 DBMS 的 角度 讲 是 这 样 的 。 
但 是 ， 有 几 点 应 当 注意 ; 
s 证 明理 论 观点 中 的 公理 (除了 基本 公理 ) 都 有 明确 的 假设 ， 而 在 模型 理论 的 观点 中 ， 这 
一 假设 隐 含 在 释义 的 概念 中 (参看 [24. 10] ) 。 该 观点 明确 地 列 出 这 些 假 设 在 一 般 情 况 下 
是 一 个 好 的 思想 ; 而 且 ， 为 了 能 应 用 一 般 的 证 明理 论 的 技术 (如 在 24.3 节 和 24. 4 节 讲 的 
归 一 方法 ) ， 明 确 指 定 这 些 公理 是 必要 的 。 
s 注意 到 上 述 公 理 没有 讲 到 完整 性 约束 规则 。 这 是 因为 如 果 加 上 这 些 约束 (在 证 明理 论 的 





念 ” 然 而 ， 如 果 我 们 假设 数据 库 不 显示 的 包含 任何 否定 信息 〈 例 如 ， 一 个 “NOT S# (S9)” 形 式 的 命题 表示 59 不 
是 一 个 供应 商号 ) ， 仍 然 会 有 “最 小 的 ”或 者 规范 的 意义 ， 这 就 是 所 有 可 能 模型 的 交集 (参看 [24.6]) 。 而 且 ， 
在 这 种 情况 下 ， 这 一 规范 的 意义 与 在 证 明理 论 的 观点 下 的 数据 库 的 意义 一 样 。 这 会 在 以 后 适当 时 候 解释 . 
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观点 里 ) ， 系 统 就 变 为 演绎 DBMS。24. 6 节 讨 论 这 一 问题 。 

s 证 明理 论 的 观点 确实 有 一 定 的 优雅 性 ， 而 模型 理论 的 观点 则 没有 。 证 明理 论 为 一 些 结构 提 
供 了 统一 的 理解 ， 而 这 些 结构 通常 被 认为 有 或 多 或 少 的 不 同 。 这 些 结构 有 : 基本 数据 、 查 
询 、 完 整 性 约束 〈 虽 然 是 以 前 的 观点 ) 、 虚 拟 数据 ， 等 等 。 所 以 ,更 统一 的 接口 和 更 统一 
的 实现 的 可 能 性 就 提高 了 。 

a 证 明理 论 的 观点 也 为 关系 系统 在 传统 上 有 处 理 困 难 的 那些 问题 提供 了 良好 的 基础 。 如 析 取 
信息 ( 例 :“ 供 应 商 56 住 在 伦敦 还 是 巴黎 ”) ， 否 定 信息 导出 ( 例 :“ 谁 不 是 供应 商 ?”)、 
递归 查询 ( 见 下 一 节 ) 等 。 对 递归 查询 ， 尽 管 几 个 商业 系统 已 能 够 加 以 处 理 ? ， 但 原则 
上 还 不 知道 为 什么 经 典 关系 系统 不 能 被 合适 地 扩展 以 解决 此 类 查询 。 我 们 将 在 24.6 节 和 
24.7 节 详 细 讨 论 这 一 问题 。 

s 最 后 ， 引 用 Reiter 的 话 (参看 [24. 10] ) ， 就 是 证 明理 论 的 观点 “为 关系 模型 (扩展 的 ) 
和 现实 世界 语义 的 结合 提供 了 正确 的 处 理 方法 ”(24. 2 节 还 将 讲 到 ) 。 


24.6 演绎 数据 库 系统 


一 个 演绎 DBMS 就 是 支持 证 明理 论 观 点 的 DBMS 。 特 别 地 ， 对 给 定 的 外 延 数据 库 中 的 事实 
运用 指定 的 演绎 公理 或 推理 规则 ， 就 可 以 从 这 些 事实 演绎 或 推导 别 的 事实 ? 。 演 绎 公理 和 完整 性 
规则 (下面 将 讨论 ) 合 在 一 起 有 时 就 叫做 内 涵 数 据 库 。 外 延 数据 库 和 内 涵 数 据 库 合 在 一 起 就 构 
成 了 通常 讲 的 演绎 数据 库 (这 不 是 一 个 很 恰当 的 术语 ， 因 为 它 是 运用 演绎 原理 的 DBMS ， 而 不 
是 数据 库 ) 。 

正如 刚刚 所 讲 的 ， 演 绎 公理 构成 了 内 涵 数 据 库 的 一 部 分 ， 而 另 一 部 分 是 表示 完整 性 约束 的 公 
理 〈 这 些 规则 的 主要 目的 是 约束 更 新 ， 实 际 上 它们 也 可 以 用 在 从 给 定 事实 演绎 另外 的 事实 的 推 
理 过 程 中 ) 。 

现在 我 们 来 看 一 看 图 3-8 所 示 的 供应 商 和 零件 数据 库 ， 其 在 “演绎 DBMS” 中 的 形式 如 何 。 

首先 ， 这 里 有 一 系列 基本 公理 定义 了 一 些 合法 的 域 值 。 注 意 : 在 这 里 ， 为 了 可 读 性 ， 我 们 采用 了 
图 3-8 中 表示 值 的 同样 的 方法 ， 如 表示 300 在 习惯 上 就 可 简写 为 QTY (300) ， 等 等 。 
Smith 
Jones 
Blake 
Clark 
Adams 
White 
Nut 


Bolt 
Screw 


INTEGER ( 5 ) CHAR ( London ) 

INTEGER ( 10 ) CHAR ( Paris ) 

INTEGER ( 15 ) CHAR ( Rome ) 

etc. CHAR ( Athens ) 
etc. 


咏 

we 
一 一 一 一 一 一 一 

on 

rq 
~—~——~—— 
一 一 一 一 一 一 一 一 一 
we 


对 基本 关系 中 的 元 组 有 如 下 的 基本 公理 ， 


S ( SL1，Smith，20，Londqon ) 

S { S2，Jones，10，Paris ) 
etc 。 

P ( Pi, Nut, Red, 12, London ) 
etc. 


SP ( S51, Pl, 300 ) 

etc. 

注意 : 我 们 并 没有 严格 地 表明 上 面 列 出 的 基本 公理 将 一 定 产生 外 延 数据 库 ， 不过， 我 们 将 使 
用 传统 的 数据 定义 和 数据 登录 方法 。 或 者 说 ， 演 绎 DBMS 直接 作用 在 由 传统 方法 构建 的 已 存在 
的 数据 库 上 。 然 而 要 注意 的 是 ， 外 延 数 据 库 不 违背 那些 已 定义 的 完整 性 约束 ! 否则 ， 任 何 一 个 违 





所 以 有 了 SQL 标准 [4.23]。 看 第 4 章 中 的 练习 4. 6。 
仓 ”关于 这 一 点 ， 值 得 注意 的 是 ， 在 1974 年 ，Codd 就 认为 关系 模型 中 的 目标 之 一 就 是 “把 事实 检索 和 文件 管理 领 
域 合并 起 来 为 后 来 商业 中 的 推理 性 服务 做 好 准备 ” 。( 参 看 [12.2] ，[26. 12] ) 
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背 如 此 约束 的 数据 库 就 推翻 了 这 一 系列 公理 的 一 致 性 (逻辑 上 ) ， 并 且 我 们 都 知道 从 这 个 点 出 
发 ， 任 何 命题 都 能 够 证 明 为 “ 真 ”( 换 句 话说， 可 导出 矛盾 ， 参 考 [9. 16] ) 。 鉴 于 此 ， 要 求 完 整 
性 约束 集 是 一 致 的 就 显得 重要 。 
现在 来 看 外 延 数据 库 。 下 面 是 一 些 属性 约束 : 
St{s, sn, st, sc ) = S#{(s ) AND 
NAME ( sn ) AND 


) 
INTEGER ( st ) AND 
CHAR ( sc ) 


P {Pp, pn, pl, pw, pc ) 3 P# (Pp ) AND 
NAME {( pn ) AND 
COLOR ( pl ) AND 
WEIGHT ( pw ) AND 
CHAR ( pc ) 

etc. 


候选 码 约束 : 


S( s, snl, stl, scl ) 人 S ( s, sn2, st2, sc2 ) 
snl = sn2 AND 
Stl = st2 AND 
SC1 = sc2 

etc. 


外 码 约束 : 
SP (ss,p,g9g) SS( s, sn, st, sc ) AND 
P ( p, pn, pl, pw, pe ) 

等 等 。 注 意 ; 为 了 说 明 的 方便 ， 我 们 假设 在 蕴含 符号 右边 的 变量 即 此 例 中 的 sm、st 等 ) 被 存在 量 
词 所 约束 (所 有 其 他 变量 就 像 24. 4 节 讲 的 那样 ， 被 全 称 量词 约束 )。 从 技术 上 讲 ， 我 们 需要 一 些 斯 
科 林 函 数 ; 例如 sn， 实际 上 ，sn 应 该 由 SN (s) 所 替代 ， 这 里 SN 就 是 一 个 斯 科 林 函 数 。 

还 要 注意 ， 上 面 的 大 部 分 约束 不 仅仅 是 24.5 节 所 讲 的 意义 上 的 子 句 ， 因 为 上 式 右边 不 仅仅 
是 简单 项 的 逻辑 和 。 

下 面 ， 我 们 再 增加 一 些 演 绎 公理 ; 


S( s, sn, st, sc ) AND st > 15 
3 GOOD SUPPLIER ( s, st, sc ) 


(比较 第 10 章 10. 1 节 中 GOOD_SUPPLIER 视图 的 定义 ) 


S { sx, sxn, sxt, sc ) AND S ( sy syn, syt, sc ) 
SS_COLOCATED ( sx, sy ) 


Ss(s, sn, st,c ) ANDP ( Pp, pn, pl, pw, ) 
3 SP EOLOCATED (ss,p) 


等 等 。 

为 了 使 这 个 例子 更 具 说 明 性 ,我 们 把 这 个 数据 库 扩展 到 包括 “零件 结构 ”这 一 关系 变量 ， 
它 表 明 零 件 px 由 哪些 零件 py 构成 它 的 组 件 ( 只 涉及 第 一 级 的 ) 。 第 一 个 约束 要 表明 px 和 py 都 
必须 能 标识 存在 的 零件 : 


PART STRUCTURE ( px, py ) SS P ( px, Xxn, xl, xw, xc ) AND 
P ( py, yn, yl, yw, yc ) 


数据 值 包括 : 


PART_STRUCTURE ( Pl, P2 
PART STRUCTURE ( Pl1, P3 
PART_STRUCTURE ( P2, P3 
PART STRUCTURE ( P2, P4 
(etc.) 


~—— 
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(实际 上 ，PART_STRUCTURE 也 可 能 有 一 个 “数量 ” 变 元 ， 去 表明 一 个 px 由 多 少 个 py 组 
成 ， 但 为 了 简单 起 见 ， 我 们 删 去 了 这 一 细节 ) 。 
下 面 增加 两 个 演绎 公理 来 解释 零件 px 由 零件 py (任何 一 级 的 ) 组 成 是 什么 意思 ; 


PART STRUCTURE ( px, py ) = COMPONENT OF ( px, py ) 


PART_ STRUCTURE ( px, pz ) AND COMPONENT OF ( pz, py ) 
3 COMPONENT OF ( px, py ) 


或 者 说 ， 如 果 零 件 py ( 某 一 级 的 ) 是 px 的 中 间 组 件 或 是 pz ( 某 一 级 的 ) 的 中 间 组 件 ， 而 pz 
又 是 px 的 中 间 组 件 ， 则 py 就 是 px 的 组 件 。 注 意 到 第 二 个 公理 是 递归 的 ， 根 据 它 本 身 又 定义 了 
COMPONENT_OF 谓词 。 相 比 而 言 ， 在 关系 系统 的 历史 上 ， 是 不 允许 如 此 递归 地 定义 视图 (或 
查询 或 完整 性 约束 ……)。 演 绎 DBMS 相对 于 经 典 关 系 系 统 来 说 ， 支 持 递 归 能 力 是 其 最 直接 、 最 
明显 的 区 别 之 一 。 尽 管 ， 就 像 24.5 节 (和 第 7 章 TCLOSE 操作 ) 所 说 的 那样 ， 对 于 为 什么 经 典 
的 关系 系统 不 能 扩展 去 支持 如 此 的 递归 ， 还 没有 什么 根本 的 解释 ; 但 某 些 系统 确实 已 经 开始 支持 
这 一 点 。 我 们 将 在 24.7 节 详 细 讨 论 递归 。 

Datalog 

从 前 面 的 讨论 很 明确 地 看 到 ， 演 绎 DBMS 的 大 部 分 内 容 表现 为 一 种 语言 ， 在 这 一 语言 里 ， 演 绎 
公理 〈 通 常 叫 规则 ) 可 以 公式 化 。 这 样 的 语言 最 著名 的 例子 就 是 Datalog 语言 (和 Prolog 类 似 ) 
(参看 [24. 5] )。 这 一 节 里 我 们 对 Datalog 语言 作 简单 的 介绍 。 注 意 : Datalog 语言 的 重点 是 它 的 描 
述 能 力 ， 而 不 是 它 的 计算 能 力 (实际 上 ， 它 与 最 初 关系 模型 情况 类 似 ， 参 看 [6.11]))，、 其 目标 就 
是 定义 一 种 语言 ， 使 它 最 终 能 比 传统 的 关系 语言 有 更 大 的 表达 能 力 (参看 [24.5])。 所 以 ，Data- 
log 中 强调 的 〈 的 确 ， 一 般 地 讲 ， 这 一 强调 贯穿 于 整个 基于 逻辑 的 系统 中 ) 是 对 查询 的 处 理 ， 而 不 
是 对 查询 的 更 新 ， 尽 管 这 是 可 能 的 ， 并 也 要 求 扩展 这 门 语言 去 支持 更 新 〈 以 后 将 看 到 ) 。 

Datalog 语言 用 它 最 简单 的 形式 ， 对 于 那些 像 简单 的 Horn 子 句 且 没有 毅 数 的 规则 ， 作 了 公式 
化 的 支持 。 在 24.4 节 里 ， 我 们 把 Horn 子 句 定义 为 下 述 形式 的 合式 公式 : 


Al AND A2 AND ... AND AD 





Al AND A2 RND ... AND an = 8 


(这 里 的 4 和 B 是 仅 包含 常量 和 变量 的 谓词 的 实例 )。 然 而 ， 根据 Prolog 的 格式 ,实际 上 ， 
Datalog 将 这 第 二 种 形式 变形 ， 即 
B © Al AND A2 AND ... AND An 


为 了 和 此 领域 的 其 他 版 本 保持 一 致 ， 下 面 我 们 作 同 样 处 理 。 

在 这 样 一 个 子 句 中 ，B 是 规则 头 (或 结论 ) ，4 是 规则 体 (或 前 提 或 目标 ， 每 一 个 个 体 是 子 
目标 ) 。 为 简洁 起 见 ， 这 里 的 AND 通常 都 用 逗号 代替 。 一 个 Datalog 程序 是 由 某 些 传统 的 方式 分 
割 的 一 系列 子 句 ， 例 如 ， 可 由 分 号 隔 开 (本 书 里 不 使 用 分 号 ， 而 是 简单 地 将 每 一 个 子 句 写 在 单 
独 的 一 行 ) 。 在 这 样 的 程序 里 ， 子 名 的 顺序 是 无 所 谓 的 。 

从 上 上述 所 讲 的 意义 看 ， 整 个 “演绎 数据 库 ” 都 可 看 作 Datalog 程序 。 例 如 ， 我 们 可 以 把 上 述 
所 有 的 关于 供应 商 和 零件 数据 库 的 公理 (基本 公理 、 完 整 性 约束 、 演 绎 公理 ) 用 Datalog 的 形式 
写 出 来 ， 用 分 号 把 它们 分 开 ， 或 把 它们 写 在 单独 的 行 上 ， 这 样 ， 其 结果 就 是 Datalog 程序 。 然 而 ， 
正如 旱 些 时候 所 说 的 那样 ， 数 据 库 的 扩展 部 分 不 能 用 这 种 方式 详细 说 明 ， 但 能 用 别 的 更 传统 的 方 
法 。 这 样 ，Datalog 语言 的 主要 目标 就 是 明确 地 支持 演绎 公理 的 公式 化 。 前 面 曾 指 出 过 ， 函 数 可 
以 看 成 传统 的 关系 DBMS 中 视图 定义 机 制 的 扩展 。 

Datalog 语言 也 可 用 作 查 询 语言 (这 里 ， 也 很 像 Prolog ) 。 例 如 ， 假 设 我 们 对 GOOD_SUPPLI- 
ER 作出 Datalog 的 定义 ， 如 下 : 


GOOD SUPPLIER ( 5，Sst， sc ) © Sl(s, sn, st, sc ) 
AND st > 15 


下 面 是 有 关 GOOD_SUPPLIER 的 典型 的 查询 : 
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1) 查询 所 有 “好 ”供应 商 : 


? ¢ GOOD SUPPLIER ( s，st，sc ) 


2) 查询 在 巴黎 的 “好 ”供应 商 : 


? © GOOD SUPPLIER ( s, st, Paris ) 


3) 供应 商 S1 是 “好 ”供应 商 吗 ? 


? ¢© GOOD SUPPLIER ( S1，st，sc ) 


等 等 。 或 者 说 ，Datalog 查 FI 一 个 以 “?” 为 头 的 特殊 的 规则 组 成 ， 其 规则 体 由 一 个 唯一 的 项 组 
成 ， 从 此 项 可 得 查询 结果 。“? 。 按 其 习惯 用 法 表示 ， “显示 ”( display) 。 

应 当 指出 ， 尽 管 最 初 定义 的 Datalog 语言 支持 递归 ， 但 它 还 有 许多 传统 的 关系 数据 库 语言 的 
特征 不 支持 ， 如 : 标量 运算 〈“ +”、“ * ”等 ) 、 聚 集运 算 (COUNT 、SUM 等 )、 差 运算 (因为 
子 句 不 能 被 否定 ) 、 分 组 运算 和 不 分 组 运算 (ungrouping) 等 。 它 还 不 支持 属性 命名 (谓词 变 元 
依赖 于 它 初始 位 置 )， 不 支持 全 域 ( 即 第 5 章 讲 的 用 户 自 定义 类 型 )。 本 节 早 些 时 候 说 过 ， 它 不 
提供 任何 更 新 操作 ，( 由 此 造成 的 结果 ) 也 不 支持 定义 过 的 外 码 删 除 及 更 新 规则 的 说 明 (ON 
DELETE CASEADE 等 等 ) 。 

为 了 弥补 上 述 这 些 不 足 ， 已 经 对 Datalog 语言 提出 了 各 种 各 样 的 扩展 ， 这 些 扩展 试图 提供 下 
述 特征 

否定 的 前 提 。 例如 : 


SS_COLOCRTED ( sx, sy ) 人 S ( sx, sxn, sxt, sc ) AND 
S ( sy, syn, syt, sc ) AND 
NOT ( sx = sy ) 


s 标量 操作 (固有 的 或 用 户 自 定义 的 )。 例 如 : 
P WT IN GRAMS ( p, pn, pl, pg, pC ) © 
P (Pp, pn, pl, pw, pc ) AND pg = pw * 454 

此 例 中 ,我们 假设 符号 “ * ”用 传统 的 记 法 写 在 中 间 。 此 项 也 可 运用 AND 的 更 传统 的 前 组 
逻辑 表示 法 为 “= (pg,，* (pw, 454))”。 

s 分 组 和 聚集 操作 (与 关系 的 SUMMARIZE 操作 相似 ， 参 看 第 7 章 ) : 有 时 为 了 叙述 总 量 的 

问题 ， 这 样 的 操作 是 必需 的 ; 这些 问题 查询 的 不 仅仅 是 零件 px 由 哪些 零件 py 组 成 ， 而 且 
要 查询 组 成 零件 px 需要 多 少 个 零件 py。( 这 里 我 们 假设 关系 变量 PART_STRUCTURE 包 
括 QTY 属性 ) 。 
更 新 操作 : 解决 更 新 要 求 的 一 种 方法 (不 唯一 ) 是 基于 对 基本 的 Datalog 语言 的 观察 ， 
(a) 在 规则 头 里 面 的 任何 谓词 必须 是 非 否定 的 ; (b) 规则 生成 的 每 一 个 元 组 可 看 作 是 在 
结果 中 的 “ 插 人 ”。 这 样 ， 一 个 可 能 的 扩充 是 允许 在 规则 头 里 面 有 否定 的 谓词 ， 且 认为 这 
些 谓词 是 请 求 删除 (有 关 的 元 组 ) 。 

a 规则 体 里 的 非 Horn 子 句 。 或 者 说 在 规则 的 定义 中 允许 有 完全 通用 的 合式 公式 。 

Gardarin 和 Valduriez 在 【24. 6] 中 举例 综述 了 以 上 的 扩展 内 容 ， 同 时 还 讨论 了 各 种 各 样 的 
Datalog 语言 的 实现 技术 。 


24.7 递归 查询 过 程 


正如 前 一 节 里 所 述 的 ， 演 绎 数据 库 里 最 值得 注意 的 特征 是 它 对 递归 的 支持 。 这 里 的 递归 包括 
递归 规则 的 定义 及 由 此 决定 的 递归 查询 。 所 以 ， 最 近 的 几 年 对 这 样 的 递归 的 实现 技术 有 着 大 量 的 
研究 ， 本 节 中 我 们 简单 地 讨论 了 一 些 研究 。 

下 面 我 们 举例 说 明 。 仍 以 24.6 节 COMPONENT_OF 的 递归 定义 来 说 ， 它 是 由 PART - 
STRUCTURE 定义 的 。( 为 简 音 起见, 我们 把 COMPONENT_OF 简写 为 COMP， 把 PART_STRUC- 
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TURE 简写 为 PS; 同 时 ,把 这 一 定义 转化 为 Datalog 的 形式 ,如 下 ) : 
COMP ( px, py ) 和 所 PS ( px, py ) 
COMP ( px, py } © PS ( px, pz ) AND COMP ( pz, py ) 


下 面 是 基于 这 一 数据 库 的 典型 的 递归 查询 (“探寻 零件 P1” ): 


? 和 COMP ( Pl, py ) 


现在 回 过 头 来 看 一 看 刚才 的 定义 : 该 定义 中 的 第 二 个 规则 ， 即 递归 规则 ， 是 线性 递归 ， 因 为 
规则 头 里 面 的 谓词 在 规则 体 里 面 仅 出 现 一 次 。 相 比 之 下 ， 下 面 COMP 的 定义 中 的 第 二 个 规则 
(递归 的 ) 从 同一 种 意义 上 讲 并 不 是 线性 递归 的 : 


COMP ( px, py ) 千 PS ( px, py ) 
COMP ( px, py ) 和 所 COMP ( px, pz ) AND COMP { pz, py ) 


然而 ， 一 般 情况 下 总 是 认为 线性 递归 表示 着 “ 令 人 感 兴趣 的 情形 ”。 某 种 意义 上 讲 ， 在 实际 
中 出 现 的 大 多 数 递 归 都 旺 线性 特征 ， 而 且 对 线性 递归 已 经 存在 有 效 处 理 技术 [24.11]。 因 此 ， 
本 节 的 讨论 只 限于 线性 递归 的 范畴 。 

注意 : 为 了 叙述 的 完整 性 ， 有 必要 对 递归 规则 (包括 线性 递归 ) 的 定义 加 以 概括 ， 以 便 处 
理 如 下 列 出 的 更 为 复杂 的 情形 : 

PP(xy) $$ Q(x,2) ANDR{2,y) 

Qtxy) 乞 P(lx,2)ANDS(2,y) 


为 了 简单 起 见 ， 这 里 我 们 忽略 了 细节 ; 具体 详细 的 讨论 参见 [24. 11] 。 

在 经 典 的 查询 过 程 〈 即 非 递归 的 ) 中 ， 实 现 一 个 递归 查询 的 全 部 问题 被 分 解 为 两 个 子 问题 ， 
即 a) 把 初始 查询 转化 为 一 些 等 价 的 且 更 有 效 的 形式 ， 接 着 b) 实际 执行 这 一 转化 结果 。 本 书 找 
述 了 对 这 两 个 问题 的 不 同 解法 。 本 节 里 ， 我 们 粗略 地 讨论 这 些 简 单 的 技术 ， 显 示 了 这 些 技术 在 下 
述 样本 数据 上 对 查询 “探寻 零件 P1” 的 求解 过 程 ， 





1. 合 一 与 归结 
当然 ， 一 个 可 能 的 方法 是 使 用 标准 的 Prolog 技术 ， 这 就 是 在 24. 4 节 描 述 的 合 一 与 归结 技术 。 
此 例 中 ， 这 种 方法 的 过 程 如 下 所 示 。 第 一 个 前 提 是 演绎 公理 ， 在 合 取 范式 中 它 看 起 来 如 下 所 示 : 


1) NOT PS ( px, py ) OR COMP ( px, py ) 
2) NOT PS ( px, pz ) OR NOT COMP ( pz, py ) OR COMP ( px, py )} 


依据 所 期 望 的 结论 ， 我 们 再 构造 另外 一 个 前 提 : 


3) NOT COMP ( P1，Py ) OR RESULT ( py ) 


基本 公理 构成 了 余下 的 前 提 。 例 如 ， 考 虑 基本 公理 ; 


4) PS ( P1，P2 ) 


用 Pi 取代 上 述 1 中 的 px，P2 取代 上 述 1 中 的 py， 我 们 可 以 归结 上 面 的 1 和 4, 得 : 
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5) COMP ( Pl, P2 ) 


现在 用 P2 取代 3 中 的 py， 并 归结 3 和 5， 得: 


6) RESULT ( P2 ) 


因此，P2 是 Pl 的 组 件 。 类 似 地 ，P3 也 是 Pl 的 组 件 。 由 此 得 到 公理 COMP (Pl1, P2) 和 
COMP (Pi ，P3); 递归 运用 上 述 过 程 ， 并 确定 最 终结 果 。 具 体 细节 留 做 练习 。 

实际 中 ， 合 一 与 归结 的 处 理 代价 是 大 的 ， 因 此 需要 寻找 一 些 更 有 效 的 处 理 策略 。 下 一 小 节 讨 
论 对 这 一 问题 的 一 些 可 能 的 方法 。 

2. 朴 质 计算 

朴 质 计算 (naive evaluation) (参见 [24.20]) 可 能 是 所 有 方法 中 最 简单 的 方法 ， 正 如 它 
名 字 所 说 的 那样 ， 这 一 算法 是 非常 纯朴 的 。 仍 以 前 述 简单 查询 为 例 ， 用 下 述 伪 代 码 可 以 很 容易 地 
解释 清楚 这 一 过 程 : 

COMP := PS :， 

do until COMP reaches a "fixpoint" ; 

COMP := COMP UNION ( COMP ¥ PS ) ; 


end ; 
DISPLAY := COMP WHERE PX = P# ('Pl1:) ; 


对 于 关系 变量 COMP 和 DISPLAY (类 似 关 系 变量 PS) ， 均 有 两 个 属性 ， 即 PX 和 PY。 不 严 
格 地 讲 ， 这 种 方法 就 是 重复 地 组 合 中 间 结 果 ， 直 到 它 达 到 一 个 不 动 点 一 一 即 它 停止 生长 。 这 一 中 
间 结 果 是 : PS 与 前 面 中 间 结 果 的 连接 的 并 。 注 意 : 表达 式 “COMP PS” 是 “COMP 和 PS 在 
COMP. PX 和 COMP. PY 上 进行 连接 ， 然 后 再 在 其 上 进行 投影 ”的 缩写 ， 为 简单 起 见 ， 我 们 忽略 
了 属性 重 命名 操作 ， 而 这 在 代数 里 是 不 能 忽略 的 〈 参 看 第 7 章 )。 

现在 用 实际 数据 来 看 厦 这 一 算法 的 过 程 。 经 过 第 一 次 循环 和 迭代 之 后 ， 表 达 式 COMP # PS 的 
值 如 下 左 表 所 示 ，COMP 的 结果 如 下 右 表 所 示 (此 迭代 过 程 中 增加 的 元 组 用 星 号 作 标记 ) : 


站 秆 和 
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看 一 看 第 二 次 兴 代 计算 COMP # PS， 它 重复 利用 了 第 一 次 迭 中 COMP # PS 的 计算 结果 ， 且 
又 增加 了 两 个 男 外 的 元 组 ( 即 上 表 中 的 (Pl1，P6) 和 (P2，P6))。 这 就 是 为 什么 朴 质 算法 并 不 
是 很 智能 的 原因 。 

第 三 次 迭代 及 更 多 的 重复 计算 之 后 ，COMP # PS 的 值 不 再 发 生变 化 ，COMP 达到 一 不 动 点 ， 
这 时 我 们 退出 循环 。 最 后 的 计算 结果 就 是 COMP 的 限制 子 集 : 





这 里 有 一 显著 的 副作用 : 这 一 算法 有 效 地 计算 了 对 每 一 个 零件 的 探寻 。 实 际 上 ， 它 已 经 计算 
了 关系 PS 的 整个 传递 闭 包 ,但 是 只 保留 了 所 需要 的 元 组 ， 其 他 元 组 都 抛弃 掉 了 ， 所 以 白白 地 做 
了 许多 工作 。 

朴 质 计算 技术 被 看 作 是 前 向 推理 的 应 用 : 从 外 延 数据 库 ( 即 实际 的 数据 值 ) 开始 ， 它 重复 
运用 定义 的 前 提 ( 即 规则 体 ) 直到 达到 所 要 的 结果 。 事 实 上 ， 这 种 算法 计算 了 Datalog 程序 中 的 
最 小 模型 (参看 [24. 5, 24.6])。 

3. 半 朴 质 计算 

前 面 讲 到 ， 朴 质 计算 中 ， 每 一 步 的 计算 在 下 一 步 里 都 要 重复 ， 这 没有 必要 。 半 朴 质 计算 就 是 
对 这 种 重复 的 -- 大 改进 (参看 [24. 23] ) 。 或 者 说 ， 每 一 步 里 ， 我 们 仅 计算 在 这 一 迭代 中 需要 添 
加 的 新 元 组 。 还 用 “探寻 零件 Pl1” 的 例子 来 解释 这 个 思想 。 伪 代码 是 : 


NEW := PS ; 

COMP := NEW ; 

do until NEW is empty } 
NEW := ( NEW 区 PS ) MINUS COMP ; 
COMP := COMP UNION NEW ; 

end ，} 

DISPLAY := COMP WHERE PX = P# ('Pl')} ; 


现在 再 来 看 看 这 一 算法 。 当 循环 开始 ， 对 于 PS，NEW 和 COMP 是 一 样 的 : 





牙 和 和 


COMP 与 朴 质 计算 中 的 第 一 次 迭代 的 结果 是 一 样 的 ， 而 NEW 仅仅 是 这 一 迭代 中 COMP 增加 
的 新 元 组 。 要 特别 注意 ，NEW 不 包括 (P1，P3) (与 朴 质 计 算 中 这 一 步 比 较 )。 
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第 二 次 迭代 结束 ， 结 果 为 : 


NEW 
pl | p6 
P2 | P6 








站 





再 进行 下 一 次 迭代 ，NEW 为 空 ， 退 出 循环 。 

4. 静态 逢 选 

静态 筛选 (static filtering) 是 一 精细 化 过 程 ， 它 来 自 于 经 典 优化 理论 中 尽 可 能 早 地 执行 选择 
操作 这 一 基本 思想 。 它 是 后 向 推理 的 一 种 应 用 ， 因 为 它 有 效 地 使 用 了 查询 结果 信息 来 修改 规则 
(前 提 ) 。 同 时 ， 它 也 简化 相关 事实 ， 因 为 它 利 用 查询 结果 信息 来 删除 起 初 的 外 延 数据 库 中 的 无 
用 的 元 组 (参看 [24. 24] ) 。 用 例子 的 伪 码 解释 这 一 结果 如 下 : 


NEW := PS WHERE PX = P# ('Pl') } 
COMP := NEW ; 
do until NEW is empty ; 
NEW := ( NEW 六 PS ) MINUS COMP ，} 
COMP := COMP UNION NEW ; 
end ; 
DISPLAY := COMP ，; 


再 来 看 看 这 一 算法 过 程 。 循 环 开 始 ， 对 于 PS，NEW 和 COMP 如 下 所 示 : 


NEW [Px | PY | COMP [Px | PY | 
团团 
Pl | p3 pl | P3 


第 一 次 迭代 之 后 ， 结 果 如 下 所 示 : 
NEW | Px | PY | COMP 











NEW COMP 
|p1 [pe 





再 进行 下 一 次 迭代 ，NEW 为 空 ， 退 出 循环 。 

对 递归 查询 策略 ， 我 们 只 简单 作 以 上 的 介绍 。 当 然 ， 在 这 一 领域 内 还 有 许多 其 他 的 方法 ， 它 
们 比 上 面 的 简单 方法 要 成 熟 得 多 。 但 由 于 空间 有 限 ， 我 们 就 不 再 介绍 ， 文 献 【24. 11 ~ 24.25] 中 
有 更 多 的 介绍 。 
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24.8 小 结 


下 面 对 基 于 逻辑 的 数据 库 作 一 个 小 结 。 虽 然 这 一 思想 在 研究 领域 还 受到 很 大 限制 ， 但 还 是 有 
基于 它 的 商业 关系 产品 上 市 (尤其 对 某 些 优化 技术 ) 。 总 的 来 讲 ， 基 于 逻辑 的 数据 库 的 概念 还 是 
令 人 感 兴趣 的 ， 前 面 一 节 里 已 经 讲 了 它 的 潜在 的 优点 。 还 有 一 个 重要 的 优点 ， 本 章 里 没有 讨论 ， 
就 是 逻辑 为 通用 程序 语言 和 数据 库 的 无 颖 集成 提供 了 基础 。 或 者 说 ， 这 一 系统 提供 了 唯一 的 基于 
逻辑 的 语言 ， 在 这 一 语言 里 , “数据 就 是 数据 ”， 而 不 管 它 是 在 共享 数据 库 中 还 是 在 本 地 库 中 。 
正 是 这 一 语言 取代 了 今天 的 SQL 产品 中 并 不 完美 的 “ 栋 入 数据 子 语言 ”的 方法 〈 当然 ， 在 达到 
这 样 的 目标 之 前 ， 还 必须 克服 大 量 的 困难 。 首 先 ， 逻 辑 是 通用 程序 语言 的 合适 的 基础 ， 而 目前 所 
取得 的 进展 并 不 能 很 好 地 满足 这 一 需要 ) 。 

现在 再 来 简略 地 回顾 一 下 我 们 所 讲 的 主要 部 分 。 首 先 ， 简 单 地 介绍 了 命题 演算 和 谓词 演算 ， 
引入 了 下 面 的 概念 : 

s 一 个 组 合式 公式 的 释义 是 下 面 三 者 的 组 合 : (a) 论 域 ; (b) 合式 公式 中 单独 的 常量 与 此 

论 域 中 的 对 应 关系 ;(c) 合式 公式 中 定义 的 谓词 和 函数 的 意义 。 

5 一 个 组 合式 公式 的 模型 就 是 一 个 释义 ， 在 此 释义 中 ， 所 有 合式 公式 为 真 。 一 般 情况 下 ， 一 
组 给 定 的 合式 公式 有 许多 模型 。 

s 证 明 就 是 这 样 的 一 个 过 程 ， 它 表明 某 一 合式 公式 8 (结论 ) 是 另 一 组 合式 公式 
用, 己 ，… 所 (前 提 ) 的 逻辑 结果 。 我 们 稍微 具体 地 讨论 了 一 个 证 明 方法 ， 即 归结 与 合 


接着 ， 我 们 讨论 了 数据 库 的 证 明理 论 的 观点 。 这 一 观点 认为 ， 数 据 库 是 由 外 延 数据 库 和 内 洒 
数据 库 组 成 。 外 延 数据 库 包 含 基本 公理 ， 不 严格 地 讲 ， 就 是 基本 数据 ; 内 涵 数 据 库 包含 完整 性 约 
束 和 演绎 公理 ， 不 严格 地 讲 就 是 视图 。 数 据 库 的 “含义 ”在 于 由 一 组 从 公理 演绎 来 的 定理 组 成 ; 
执行 一 个 查询 就 成 了 定理 证 明 过 程 (至 少 概念 上 是 这 样 的 ) 。 演 绎 DBMS 就 是 这 种 支持 证 明理 论 
观点 的 DBMS 。 我 们 简单 地 介绍 了 这 种 DBMS 的 一 种 语言 ， 即 Datalog 语言 。 

Datalog 语言 与 传统 的 关系 语言 之 间 最 直接 最 明显 的 区 别 在 于 它 支持 递归 公理 ， 因 而 支持 递 
归 查 询 。 而 目前 还 不 知道 为 什么 传统 的 关系 演算 和 关系 代数 不 能 扩展 去 做 同样 的 功能 (参看 第 7 
章 讨论 的 TCLOSE 操作 )。 。 我 们 还 讨论 了 计算 这 一 查询 的 简单 技术 。 

结论 : 本 章 开始 时 我 们 讲 了 许多 术语 ， 如 : 逻辑 数据 库 、 推 理 DBMS 、 演 绎 DBMS ， 等 等 。 
这 些 术语 在 研究 领域 经 常用 到 (在 一 定 程度 上 ， 其 至 在 厂家 的 广告 中 也 会 出 现 ) 。 我 们 对 它们 作 
了 一 些 解释 。 然 而 ， 在 这 些 问 题 上 ， 总 是 没有 一 致 性 。 在 研究 领域 ， 对 同一 术语 可 能 会 出 现 不 同 
解释 。 下 面 的 一 些 解释 都 是 可 能 会 出 现 的 : 

m 递归 查询 过 程 这 是 很 简单 的 概念 。 它 是 一 查询 的 计算 方法 ， 尤 其 是 优化 。 它 内 在 地 定义 

了 递归 (参看 24.7 节 )。 

昌 知识 库 : 此 术语 有 时 就 指 24. 6 节 讲 的 内 涵 数 据 库 ， 即 它 由 一 系列 规则 (完整 性 约束 和 演 
绎 公理 ) 组 成 。 它 和 库 数据 相反 ， 库 数据 是 由 一 系列 外 延 数据 库 组 成 。 但 是 有 些 观点 认 
为 它 是 这 两 者 的 组 合 (下 面 的 演算 数据 库 将 讲 到 )， 而 且 还 有 人 认为 (参看 [24.6]) 
“知识 库 经 常 包括 复杂 的 对 象 和 经 典 关 系 ”( 参 看 本 书 第 六 部 分 “复杂 对 象 的 讨论 ”)。 在 
自然 语言 系统 里 ， 这 一 术语 还 有 更 多 的 意义 。 最 好 能 完全 避免 这 一 术语 的 德 用 。 

m 知识 ， 这 也 是 简单 的 概念 ! 知识 就 是 知识 库 里 的 内 容 。 这 一 定义 简化 了 前 面 未 能 解决 的 

“知识 ”定义 的 问题 。 

四 知识 库 管理 系统 (KBMS): 管理 知识 库 的 软件 。 这 一 术语 典型 地 作为 演绎 DBMS 的 同 义 
词 使 用 。 

s 演绎 DBMS: 支持 证 明理 论 观 点 的 数据 库 ， 尤 其 是 它 能 根据 内 涵 数据 库 中 的 推理 ( 演绎 ) 





@ ”就 这 一 点 来 说 ， 关 系 DBMS 需要 能 够 解决 递归 过 程 ， 因 为 在 这 里 有 些 递归 地 包含 了 结构 化 的 信息 〈 根 据 其 他 的 
视图 定义 的 视图 就 是 一 个 典型 的 例子 ) 。 
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规则 ， 从 外 延 数据 库 演 绎 出 其 他 的 信息 。 演 绎 DBMS 一 定 能 支持 递归 规则 ， 从 而 支持 递 
归 查 询 。 

演绎 数据 库 (Deductive database9 ) ， 由 演绎 DBMS 管理 的 数据 库 。 

专家 DBMS : 演绎 数据 库 的 同义词 。 

@ 专家 数据 库 (Expert databasee” ) ; 由 专家 DBMS 管理 的 数据 库 。 

a 推理 DBMS: 演绎 数据 库 的 同义词 。 

@ 基于 逻辑 的 系统 : 演绎 数据 库 的 同义词 。 

@ 过 辑 数 据 库 (Logic databases ) : 演绎 数据 库 的 同义词 。 

@ 逻辑 作为 数据 模型 : 至 少 由 对 象 、 完 整 性 规则 和 操作 组 成 的 数据 模型 。 在 演绎 DBMS 中 ， 
对 象 、 完 整 性 规则 和 操作 都 是 以 统一 的 方式 描述 ， 如 在 Datalog 这 一 逻辑 语言 中 都 描述 为 
公理 。 正 如 24.6 节 所 解释 的 那样 ， 此 系统 的 一 个 数据 库 可 以 看 作 一 种 逻辑 程序 ， 包 含 了 
所 有 的 三 种 公理 。 因 此 ， 在 这 样 的 一 个 系统 中 ， 抽 象 数据 模型 就 是 其 逻辑 本 身 。 


习题 


24. 1 


试 使 用 归结 方法 ， 看 下 面 的 中 间 结 果 在 命题 演算 中 是 否 构成 合法 证 据 。 
a.AS3B,C3B,D>(AORC),D 上 8 


b (A=3B)AND{IC2D),(B3EANDDZF ), 
NOT (EANDF ),ASC 


c (AORB) 地 DDD NT(EORF ), NOT (BAND 
HF NOT (G3 NOT ( 


24.2 ”把 下 面 的 合式 公式 转化 为 子 句 形 式 : 


a. FORALL x ( FORALL y 
(P(x,y ) 3 EXISTSZ (q(x,2))}))})) 


b. EXISTS x ( EXISTS y 
(p(x,y) 3 FORALLZ2 (q(x,z)))) 


C. EXISTS x ( EXISTS 了 
(p(x,y) EXISTSzZ (9(x 2z2))) ) 


24.3 ”下面 是 一 个 逻辑 数据 库 的 标准 的 例子 : 


MAN { Adam ) 
WOMAN ( Eve ) 

MAN ( Cain ) 
MAN ( Abel ) 
MAN ( Enoch ) 


PARENT Adam, Cain ) 


( 
PARENT ( Adam, Abel ) 
PARENT ( Eve, Cain ) 
PARENT ( Eve, Abel ) 
PARENT ( Cain, Enoch ) 
FATHER ( x, y ) © PARENT ( x, y ) AND MAN ( x ) 
MOTHER ( x, y } PARENT ( x, y ) AND WOMAN ( x )} 


SIBLING ( x, y ) PARENT ( 2z, x ) AND PARENT ( z, y ) 


BROTHER ( x, y ) SIBLING ( x, y ) AND MAN ( x ) 


SIBLING ( x, y ) AND WOMAN ( x ) 


= 
人 
SISTER (x,y) < 
Do 
和 


RNCESTOR ( xy ) 
ANCESTOR ( x，y ) 


PARENT ( x, y ) 
PARENT ( x, 2z ) AND ANCESTOR ( 2z, y ) 





加 ”这 是 一 个 有 争议 的 术语 。 一 一 译 者 注 
轧 这 是 一 个 有 争议 的 术语 。 一 一 译 者 注 
@ ”这 是 一 个 有 争议 的 术语 。 一 一 译 者 注 
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使 用 归结 方法 回答 下 列 问题 : 
a Cain 的 母亲 是 谁 ? 
b. Cain 的 兄妹 是 谁 ? 
c. Cain 的 兄弟 是 谁 ? 
d. Cain 的 姐妹 是 谁 ? 
e, Enoch 的 祖先 是 谁 ? 
24.4 解释 什么 是 释义 和 模型 。 
24.5 写 一 组 Datalog 公理 来 解释 供应 商 - 零件 - 工程 数据 库 的 部 分 内 容 。 
24.6 试 写 出 习题 7. 13 ~7. 50 的 Datalog 语句 。 
24.7 试 写 出 习题 9.3 的 Datalog 语句 。 
24.8 24.7 节 中 用 归结 与 合 一 的 方法 实现 了 “探寻 零件 Pl1” 的 查询 ,请 给 出 你 自己 的 解释 。 


参考 文献 


基于 逻辑 的 数据 库 系统 在 过 去 几 年 迅速 成 长 ; 下面 只 列 出 了 当前 这 一 研究 领域 的 部 分 成 果 ， 并 分 组 
如 下 : 
m 文献 124. 1 ~24.5] 是 一 些 书 籍 ， 它 们 讲述 了 逻辑 方面 的 研究 (尤其 是 在 计算 和 /或 数据 库 方面 ) 
或 者 收集 了 基于 逮 辑 的 数据 库 的 大 量 的 论文 。 
m 文献 [24.6] 和 [24.7] 是 一 些 教程 。 
加 文献 [24.9] 、[24. 12 ~24.15]、[24.25] 和 [24.27，24. 28] 讲述 了 传递 闭 包 及 其 实现 。 
文献 [24. 16 ~ 24. 19] 描述 了 一 个 重要 的 叫做 魔 集 (及 其 上 变化 ) 的 递归 查询 技术 。 也 可 参看 
[18. 22 ~ 18.24]。 
剩余 的 文献 主要 讲述 了 在 这 一 领域 内 有 多 少 研究 、 涉 及 哪些 方向 ， 这 里 只 作 了 简单 的 介绍 。 
[24.1] “Robert R. Stoll:Sets,Logic,and Axiomatic Theories. San Francisco,Calif. :W. H. Freeman and Compa- 
ny(1961 ) . 
本 书 很 好 地 介绍 了 什么 叫 逻 辑 。 
[24.2] Peter M.D. Gray:Logic,Algebra and Databases. Chichester ,England:Ellis Horwood Ltd. (1984 ) . 
本 书 从 数据 库 的 观点 比较 详细 地 介绍 了 命题 演算 和 谓词 演算 及 其 他 许多 相关 命题 。 
[24.3] Hervé Gallaire and Jack Minker: Logic and Data Bases. New York, N.Y. :Plenum Publishing Corp. 
(1978). 
本 书 是 早期 收集 了 本 领域 内 的 大 量 的 论文 的 书籍 。 
[24.4] Jack Minker (ed. ) :Foundations of Deductive Databases and Logic Programming. San Mateo ,Calif， : 
Morgan Kaufmann (1988). 
[24.5] Jeffrey D. Ullman:Database and Knowledge-Base Systems (in two volumes). Rockville, Md. :Comput- 
er Science Press (1988 ,1989). 
该 书 第 一 卷 共有 10 章 ， 其 中 有 一 章 详细 介绍 了 基于 逻辑 的 方法 。 该 章 还 讨论 了 Datalog 语 
言 的 起 源 ， 但 重要 的 是 介绍 了 逻辑 与 关系 代数 之 间 的 关系 。 同 时 作为 轴 辑 方法 的 一 个 特殊 的 例 
子 , 介绍 了 关系 演算 (包括 域 演 算 和 元 组 演算 ) 。 第 二 卷 共有 7 章 ， 其 中 有 5 章 讨 论 了 基于 逻辑 
的 数据 库 。 
[24.6] ”Georges Gardarin and Patrick Valduriez: Relafional Databases and Knowledge Bases. Reading, Mass. : 
Addison-Wesley (1989). 
该 书 有 一 章 介 绍 了 演算 系统 ， 它 讨论 了 基本 的 理论 及 优化 算法 等 。 虽 然 在 实际 中 它 只 是 一 
本 指南 ， 但 比 我 们 这 一 章 介绍 的 要 详细 。 
[24.7] Hervé Gallaire ,Jack Minker,and Jean-Marie Nicolas “Logic and Databases: A Deductive Approach ,” 
ACM Comp. Surv. 16 ,No. 2 (Tune 1984 ) . 
[24.8] Veronica Dahl;“ On Database Systems Development Through Logic,” ACM TODS 7,No.1 (March 
1982 ) . 


子 。 这 些 例子 是 由 Dahl 在 1977 年 实现 的 。 
[24.9] Rakesh Agrawal:“Alpha: An Extension of Relational Algebra to Express a Class of Recursive Que- 
ries,” IEEE Transactions on Software Engineering 14,No.7 (July 1988). 
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[24. 10] 


[24.11] 


[24.12] 


[24. 13] 


[24. 14] 


[24. 15 ] 


[24. 16 


第 五 部 分 高 级 专题 


本 文 提出 了 一 种 新 的 叫做 alpha 的 操作 ， 该 操作 支持 “递归 查询 巨 类 ”的 问题 (实际 上 ， 
这 是 一 个 递归 查询 的 超 类 ) ， 它 建立 在 传统 的 关系 代数 的 基础 上 的 。 在 处 理 大 部 分 包括 递归 的 实 
际 问题 时 它 具 有 强大 的 功能 ， 同 时 它 比 任何 其 他 的 递归 机 制 更 容易 实现 。 这 篇 论文 列举 了 此 操 
作 符 的 几 个 例子 。 特 别 地 ， 它 还 讲 了 如 何 简单 地 处 理 传递 闭 包 和 “总 量 查询 的 问题 ” ( 分别 参 
看 [24.12] 和 24.6 节 )。 

文献 【24. 14] 和 [24. 13] 也 讨论 了 一 些 相关 的 实现 问题 。 
Raymond Reiter:“ Towards a Logical Reconstruction of Relational Database Theory,” in Michael L. 
Brodie , John Mylopoulos, and Joachim W. Schmidt (eds. ), On Conceptual Modelling: Perspectives 
from Artificial Intelligence, Databases ,and Programming Languages. New York, N.Y. :Springer~ Verlag 
《1984 ) . 

24. 2 节 已 经 讲 过 ，Reiter 著作 并 不 是 这 一 领域 内 的 第 一 本 文献 ， 以 前 已 有 许多 研究 者 研究 
了 人 逻 辑 和 数据 库 之 间 的 关系 (参看 文献 [24.3] 、[24.4] 和 [24.8])。 但是, 好像 是 “Reiter 
的 关系 理论 的 逻辑 重 构 ” 激 起 了 这 一 领域 的 发 展 和 当前 人 们 极 大 的 兴趣 。 
Frangois Bancilhon and Raghu Ramakrishnan:“ An Amateur s Introduction to Recursive Query Process- 
ing Strategies,” Proc. 1986 ACM SIGMOD Int. Conf. on Management of Data, Washington, D. C. 
(May 1986). Republished in revised form in Michael Stonebraker (ed. ), Readings in Database Sys- 
tems. San Mateo ,Calif :Morgan Kaufmann (1988 ) . 

这 是 一 篇 优秀 的 综合 论文 。 开 篇 介绍 了 在 递归 查询 的 实现 中 存在 的 消极 和 积极 的 问题 。 积 
极 的 是 已 经 实现 了 的 大 量 技术 ， 至 少 它 解决 了 这 一 查询 的 实现 。 消 极 的 是 ， 还 根本 不 知道 如 何 
在 给 定 情形 下 选择 最 适合 的 技术 (特别 是 这 里 的 许多 论文 很 少 或 根本 就 没有 讨论 实现 上 的 特 
征 )。 在 用 一 小 节 讨论 了 逻辑 数据 库 的 基本 思想 后 ， 继 续 讨论 了 大 量 命题 的 算法 ， 如 朴 质 计算 、 
半 朴 质 计算 、 和 迭代 查询 / 子 查 询 、 递 归 查 询 / 子 查询 、APEX、Prolog 语言 、Henschen/ Naqvi、 
Aho-Ulman 、Kifer-Lozinskii、 计 数 (counting) 、 魔 集 等 、 广 义 魔 集 等 。 它 还 在 应 用 领域 ( 即 这 
一 类 算法 通常 应 用 的 问题 ) 、 性 能 和 实现 的 简易 性 方面 上 对 这 些 不 同 的 方法 进行 了 比较 。 论 文 还 
包括 了 来 自 一 个 简单 的 基准 测试 的 性 能 参数 ， 以 及 相应 的 比较 分 析 。 
Yannis E. Ioannidis:“ On the Computation of the Transitive Closure of Relational Operators,” Proc. 12th 
Int Conf on Very Large Data Bases, Kyoto, Japan (August 1986 ) . 

本 文 提出 了 分 而 治之 的 方法 来 实现 传递 闭 包 ， 还 可 以 参看 文献 [24.9] 、[24. 13 ~ 24. 15 ] 
和 [24.27, 24. 28]。 
H. V. Jagadish ,Rakesh Agrawal ,and Linda Ness:“ A Study of Transitive Closure as a Recursion Mecha- 
nism,” Proc. 1987 ACM SIGMOD Int Conf on Management of Data, San Francisco, Calif. ( May 
1987 ) . 

文章 摘要 中 所 到 “此 文 表明 ， 每 一 个 递归 查询 都 可 表示 为 一 个 传递 闭 包 ， 其 后 可 能 紧 跟 在 
关系 代数 里 也 适用 的 操作 ”。 作 者 认为 ， 在 一 般 情况 下 ， 有 效 地 实现 传递 闭 包 是 有 效 地 实现 线性 
递归 的 充分 基础 ， 所 以 也 是 在 递归 巨 类 上 有 效 地 实现 演绎 DBMS 的 基础 。 
Rakesh Agrawal and H. Jagadish.“ Direct Algorithms for Computing the Transitive Closure of Database 
Relations ,”Proc. 13th Int Conf on Very Large Data Bases ,Brighton ,UK (September 1987 ) . 

此 文 指出 了 一 组 传递 闭 包 的 算法 ,文章 “没有 把 传递 闭 包 问题 看 作 是 计算 递归 的 问题 ， 而 
是 看 作 从 第 一 个 原理 获得 闭 包 的 问题 ”( 所 以 这 一 术语 是 直接 的 ) 。 本 文 也 对 早期 的 其 他 的 直接 
算法 进行 了 小 结 。 
Hongjun Lu “New Strategies for Computing the Transitive Closure of a Database Relation,” Proc. 13 由 
Int. Conf. on Very Large Data Bases ,Brighton ,UK (September 1987 ) . 

此 文 讲 述 更 多 的 传递 闭 包 的 算法 。 与 【24. 14j 一 样 ， 该 文 也 对 早期 的 解决 这 一 方面 问题 的 
方法 进行 了 总 结 。 
Fransois Bancilhon, David Maier, Yehoshua Sagiv,and Jeffrey D. Ulman: ”Magic Sets and Other Strange 
Ways to Implement Logic Programs. ” Proc. Sth ACM SIGMOD-SIGACT Symposium on Principles of 
Database Systems (1986). 

“ 魔 集 ” 的 基本 思想 是 引 人 新 的 规则 (“ 魔 规则 ”) 来 保证 产生 与 初始 查询 相同 的 结果 ， 但 
使 用 魔 规则 更 有 效 。 从 这 个 意义 上 讲 ， 它 们 简化 了 一 系列 “相关 事实 ”( 参 看 24. 7 节 ) 。 具 体内 
容 很 复杂 ， 且 超出 了 此 注解 的 范围 。 至 于 详细 解释 ， 请 参考 此 论文 或 Bancilhon 或 Ramakrishnan 





[24. 17] 
[24. 18] 
[24. 19] 


[24. 20] 


[24.21] 


[24. 22] 


[24. 23] 


[24. 24] 


[24. 25] 
[24. 26] 
[24.27] 


[24. 28] 
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的 报告 [24. 11] ,或 Ullman 的 书 [24.5] ， 或 Gardarin 和 Valduriez 的 书 [24.6]。 基 于 此 思想 
的 许多 不 同 变 体 相继 出 台 ， 如 下 面 的 文献 [24. 17 ~24. 19 ] ， 同 时 还 可 参看 [18. 22 ~18.24j 。 
Catriel Beeri and Raghu Ramakrishnan : “On the Power of Magic , ”Proc. 6th ACM SIGMOD- SIGACT 
Symposium on Principles of Database Systems (1987). 
Domenico Sacca” and Carlo Zaniolo:”" Magic Counting Methods,” Proc. 1987 ACM SIGMOD Int. Conf. 
on Management of Data ,San Francisco, Calif. (May 1987 ) . 
Georges Gardarin ; “Magic Functions: A Technique to Optimize Extended Datalog Recursive Programs ,” 
Proc. 13th Int Conf. on Very Large Data Bases ,Brighton ,UK ( September 1987 ) . 
A. Aho and J. D. Ullman:;“ Universality of Data Retrieval Languages,” Proc. 6th ACM Symposium on 
Principles of Programming Languages ,San Antonio , Tex. (January 1979 ) . 

假如 有 关系 r、 f(r)、f (f(r)),… (这 里 7 为 固定 的 函数 ) ， 则 根据 下 面 的 朴 质 算法 ， 
其 最 小 不 动 点 定义 为 关系 ~” (参看 24.7 节 ) : 
Fr ;= 工 
do until r* stops growing ;} 

r* := r* UNION f(r*) ; 

end : 
此 文 指出 了 另 一 个 关系 代数 的 最 小 不 动 点 操作 。 
Jeffrey D. Ullman : Implementation of Logical Query Languages for Databases,” ACM TODS 10 ,No. 3 
( September 1985 ) . 

本 文 讲述 了 一 个 重要 的 类 ， 它 包括 可 能 的 递归 查询 实现 技术 。 这 些 技术 依据 “规则 /目标 
树 ” 的 “捕获 ”规则 而 定义 。 它 们 也 是 依据 子 句 和 谓词 而 表达 查询 策略 图 。 这 篇 论文 定义 了 几 
个 这 样 的 规则 。 一 个 是 讲 关 系 代数 操作 的 应 用 ， 两 个 分 别 讲 前 向 链 和 后 向 链 ， 还 有 一 个 “小 路 ” 
规则 ， 它 允许 结果 从 一 个 子 目标 传 向 另 一 个 子 目 标 。 传 向 后 者 的 “小 路 ”信息 是 所 谓 的 魔 集 技 
术 的 基础 (参看 [24. 16 ~24. 19] ) 。 
Shalom Tsur and Carlo Zaniolo: “LDL :A Logic-Based Data- Language,” Proc. 12th Int Conf. on Very 
Large Data Bases, Kyoto ,Japan (August 1986). 

LDL 包括 : (1) 一 个 “ 集 ” 类 型 构造 器 ; (2) 非 ( 基 于 差 ); (3) 数据 定义 ; (4) 更 新 操 
作 。 它 是 一 种 纯 的 逻辑 语言 ， 语 句 间 没 有 序 的 依赖 关系 。 这 种 语言 是 编译 型 的 ， 而 不 是 解释 型 
的 。 
Frangois Banciljhon : “Naive Evaluation of Recursively Defined Relations,” in Michael Brodie and john 
Mylopoulos (eds. ), On Knowledge Base Management Systems: Integrating Database and Al Sys- 
fems. New York,N. Y. :Springer-Verlag (1986). 
Eliezer L. Lozinskii.“ A Problem-Oriented Inferential Database System,” ACM TODS 11,No.3 (Sep- 
tember 1986 ) . 

此 文 讲述 了 “相关 事实 ”的 来 源 。 由 于 推理 技术 导致 这 一 研究 领域 其 他 方面 的 快速 扩充 ， 
这 篇 文章 就 讲述 了 一 个 原型 系统 去 抑制 这 种 扩充 。 
Arnon Rosenthal et al. .“ Traversal Recursion: A Practical Approach to Supporting Recursive Applica- 
tions , ”Proc. 1986 ACM SIGMOD Int Conf on Management of Data , Washington ,D.C (June 1986 ) . 
Michael Kifer and Bliezer Lozinskii “On Compile Time Query Optimization in Deductive Databases by 
Means of Static Filtering,” ACM TODS 15 ,No. 3 (September 1990 ) . 
Rakesh Agrawal ,Shaul Dar ,and H. V. Jagadish:“ Direct Transitive Closure Algorithms: Design and Per- 
formance Evaluation,” ACM TODS 14 ,No. 3 (September 1990). 
H. V. Jagadish:“ A Compression Method to Materialize Transitive Closure,” ACM TODS 15 No. 4 (De- 
cember 1990). 

本 文 提出 了 一 个 索引 技术 ， 从 而 可 使 给 定 关系 的 传递 闭 包 压 缩 存储 。 这 样 ， 要 测试 一 个 元 
组 是 否 在 闭 包 里 出 现 ， 就 可 以 通过 一 个 单 表 查 询 辅 以 索引 比较 。 





第 六 部 分 ”对象 、 关 系 和 XML 


注意 ; 像 第 20 章 一 样 ， 本 书 这 部 分 的 几 章 内 容 也 在 很 大 程度 上 依赖 于 最 开始 在 第 5 章 讨论 
到 的 内 容 。 如 果 前 面 你 只 是 马马虎虎 地 浏览 了 一 遍 ， 那 么 你 可 能 在 读 这 几 章 之 前 要 返回 去 重读 一 
遍 (如 果 你 还 没有 这 么 做 的 话 )。 

一 般 而 言 ， 对 象 技 术 在 软件 开发 领域 中 是 一 门 重要 的 学 科 ， 人 们 自然 而 然 也 会 问 它 是 否 与 数 
据 库 管理 的 领域 相关 ， 更 重要 的 是 ， 如 果 相 关 ， 那 么 关系 是 什么 。 虽 然 人 们 通常 难以 就 这 些 问 题 
达成 一 致 ， 但 某 种 统一 的 认识 确实 正在 了 出现。 当 对 象 数据 库 系 统 刚 出 现 的 时 候 ， 一 些 工业 名 流 声 
称 它 们 可 以 控制 世界 ， 完 全 取代 关系 数据 库 系统 ; 而 一 些 权 威 人 士 则 觉得 对 象 数 据 库 只 适用 于 某 
些 特定 的 问题 ， 不 可 能 占领 太 多 的 市 场 。 当 争辩 如 火 如 茶 的 时 候 ， 系 统 支持 的 第 三 种 可 能 开始 出 
现 : 这 是 一 种 结合 了 对 象 和 关系 的 技术 并 且 青 出 于 蓝 而 胜 于 蓝 的 系统 。 现 在 它 似乎 证 明 那 些 权威 
人 士 的 观点 是 正确 的 : 单纯 的 对 象 系统 只 能 充当 一 种 角色 ， 但 是 只 是 小 角色 ， 而 关系 系统 在 可 以 
预见 的 将 来 会 继续 统领 市 场 。 正 如 我 们 看 到 的 一 样 ， 不 仅 是 因为 那些 “对 象 /关系 ”系统 实际 也 
是 关系 系统 。 

目前 ， 一 种 特定 的 对 象 日 益 被 人 们 所 关注 ， 就 是 XML 文档 ; 而 在 数据 库 中 保存 、 查 询 和 更 
新 它们 已 经 迅速 成 为 重大 的 课题 。“XML 数据 库 ” 一 一 一 种 只 包含 XML 文档 的 数据 库 一 一 是 有 
可 能 的 。 然 而 ， 如 有 可 能 ， 在 对 象 或 者 关系 (或 者 “对 象 / 关 系 ”) 数据 库 中 使 XML 文档 和 其 他 
数据 结合 成 一 体 ， 会 变 得 更 适当 。 

本 书 这 部 分 所 包含 的 几 章 在 一 定 深度 上 研究 了 这 些 问题 。 第 25 章 研究 了 纯 对 象 系统 ， 第 26 
章 概述 了 对 象 / 关 系 系统 ， 第 27 章 讨 论 了 XML。 





第 25 章 ”对 象 数 据 库 


25.1 引言 


从 20 世纪 80 年 代 末 到 90 年 代 中 期 , 人们 对 面向 对 象 数 据 库 系统 (简称 对 象 系统 ) 产生 了 
极 大 的 兴趣 。 一 些 人 甚至 认为 对 象 系 统 是 关系 系统 (或 称 为 SQL 系统 ) 的 强大 竞争 对 手 。 然 而 
今天 很 少 有 人 同意 这 点 ; 大 多 数 IT 业 人 士 现在 感到 ， 对 象 系统 确实 发 挥 了 一 些 作 用 ， 虽 然 ， 这 
种 作用 相对 非常 有 限 [25. 33] 。 然 而 ， 这 种 系统 仍然 是 值得 研究 的 。 因 此 ， 在 本 章 中 我 们 将 详 
细 讨 论 有 关 对 象 系统 的 内 容 ， 包 括 介绍 和 解释 基本 的 对 象 概念 ， 深 和 分析 这 些 概 念 ， 并 就 如 何 恰 
当地 把 这 些 概念 加 入 到 将 来 的 数据 库 系统 中 提出 一 些 建议 。 

为 什么 如 今 大 家 都 对 对 象 系统 感 兴趣 呢 ? 因为 “每 一 个 人 ”都 知道 经 典 的 SQL 系统 在 某 些 
方面 存在 不 足 ， 一 些 人 甚至 认为 其 基本 的 理论 〈 即 关系 模型 ) 也 存在 着 问题 。 无 论 如 何 ， 我 们 
在 DBMS 中 所 需要 加 入 的 一 些 新 特性 在 C++ 或 Smalltalk 之 类 的 对 象 编程 语言 中 已 经 存在 了 许多 
年 ， 所 以 有 把 这 些 特性 融 人 到 数据 库 系统 的 想法 是 一 件 很 自然 的 事 。 许 多 研究 人 员 和 一 些 软件 开 
发 商 也 确实 在 这 么 做 。 

因此 ， 对 象 系统 源 于 对 象 编程 语言 。 其 基本 思想 是 : 用 户 不 应 该 与 面向 机 器 的 结构 ， 如 位 或 
字 节 (甚至 字段 和 记录 ) 打交道 ， 而 应 该 直接 对 对 象 和 建立 在 对 象 之 上 的 操作 进行 处 理 ， 这 样 
做 显然 与 用 户 的 真实 世界 更 为 一 致 。 例 如 ， 用 户 应 该 能 够 直接 认为 存在 一 个 部 门 对 象 ， 部 门 对 象 
中 包含 一 系列 雇员 对 象 ， 而 不 是 考虑 部 门 表 中 的 元 组 及 其 相应 的 雇员 表 中 的 元 组 和 外 码 值 ， 并 且 
这 些 值 还 必须 参照 部 门 表 中 的 主 码 。 当 增加 一 个 雇员 时 ， 用 户 也 不 需要 再 考虑 部 门 表 和 雇员 表 之 
间 主 码 和 外 码 的 参照 完整 性 后 再 插 人 一 条 元 组 ， 而 只 要 把 和 雇员 对 象 直接 放 到 相关 的 部 门 对 象 中 即 
可 。 换 句 话说， 其 基本 思想 是 : 提高 抽象 度 。 

如 今 毫 无 疑问 ， 提 高 抽象 度 是 一 个 有 意义 的 目标 ， 而 对 象 模式 在 编程 语言 领域 成 功 地 满足 了 
这 一 目标 。 自 然 ， 我 们 就 会 想到 在 数据 库 领 域 是 否 也 能 成 功 地 使 用 这 一 模式 。 确 实 ， 用 数据 库 直 
接 处 理 “ 复 杂 对 象 ”的 思想 (例如 ， 拥 有 能 直接 雇佣 和 雇员、 更换 经 理 和 削减 预算 的 部 门 对 象 ) 
比 起 “关系 变量 "、“ 元 组 插入 ”和 “外 码 ” 等 传统 的 数据 库 处 理 来 说 ， 对 用 户 更 具有 吸引 
力 一 一 至 少 乍 看 起 来 是 这 样 。 

然而 ， 在 这 里 我 们 应 该 提出 一 个 遵 慎 的 观点 : 虽然 编程 语言 和 数据 库 管理 在 原则 上 有 许多 共 
同 之 处 ， 但 它们 在 某 些 重要 的 方面 确实 有 所 不 同 ， 具 体 来 讲 : 

sm 应 用 程序 按 其 定义 是 为 了 解决 某 些 特定 的 问题 ; 

a 数据 库 按 其 定义 却 是 为 了 解决 一 系列 不 同 的 问题 (其 中 一 些 问题 甚至 在 数据 库 建 立时 并 

不 清楚 ) 。 

所 以 ， 在 应 用 编程 环境 中 ， 把 许多 “智能 ”的 东西 嵌 人 到 复杂 的 对 象 中 是 一 个 好 主意 : 这 
样 能 够 减少 使 用 这 些 对 象 所 需要 编写 的 代码 量 、 提 高 程序 员 的 工作 效率 、 增 强 程序 的 可 维护 性 ， 
等 等 。 相 反 ， 在 数据 库 环境 中 ， 媒 人 许多 智能 的 东西 并 不 一 定 是 一 个 好 主意 : 它 可 能 简化 了 一 些 
问题 ， 但 同时 也 使 另 一 些 问题 变 得 更 加 困难 ， 甚 至 不 能 解决 。 

巧合 的 是 ， 同 样 的 观点 曾 在 20 世纪 70 年 代 时 被 用 来 反对 关系 数据 库 以 前 的 数据 库 系 统 ， 如 
IMS。 一 个 包含 有 一 系列 雇员 对 象 的 部 门 对 象 在 概念 上 与 IMS 的 层次 结构 非常 相似 。 在 层次 结构 
中 ， 部 门 “ 父 片段 ”拥有 一 些 从 属 的 雇员 “ 子 片段 。 这 种 层次 结构 对 于 类 似 “ 找 出 在 会 计 部 门 
工作 的 雇员 ”这 样 的 问题 非常 适合 ， 但 却 不 能 很 好 地 回答 “ 找 出 雇佣 了 MBA 的 部 门 ”这 样 的 问 
题 。 所 以 ,在 20 世纪 70 年 代用 来 反对 层次 方法 的 许多 观点 如 今 在 对 象 这 一 环境 下 又 以 不 同 的 方 
式 再 次 被 提出 。 

尽管 有 上 述 的 种 种 问题 存在 许多 人 仍然 认为 对 象 系统 是 数据 库 技术 上 的 重大 飞 除 。 特 别 是 
对 于 如 下 “复杂 ”应 用 ， 对 象 技术 更 是 一 个 非常 好 的 选择 : 
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8 计算 机 辅助 设计 和 制造 (CAD/CAM) 
se 计算 机 集成 制造 (CIM) 
a 计算 机 辅助 软件 工程 (CASE) 
w 地 理 信 息 系统 (GIS) 
a 科学 和 医学 
m 文档 存储 和 获取 
还 有 其 他 许多 应 用 〈 注 意 在 这 些 领域 内 使 用 经 典 的 SQL 产品 的 确 会 遇 到 -一些 麻烦 ) 。 当 然 ， 
针对 这 一 问题 这 些 年 来 产生 了 许多 技术 论文 ， 并 且 一 些 相关 的 商品 化 产品 也 已 进入 了 市 场 。 
本 章 的 目的 就 是 解释 对 象 数据 库 技 术 究 竟 是 什么 ?也 就 是 介绍 对 象 方法 中 一 些 最 重要 的 概 
念 ， 尤 其 是 从 数据 库 的 角度 对 这 些 概 念 的 看 法 (相反 ， 许 多 文献 都 是 从 程序 设计 的 角度 来 引入 
这 些 思想 的 ) 。 本 章 的 结构 如 下 : 在 下 一 小 节 中 将 给 出 一 个 启发 性 的 例子 一 一 一 个 传统 的 SQL 产 
品 无 法 进行 有 效 处 理 而 使 用 对 象 技术 却 能 很 好 解决 的 例子 。25. 2 节 将 给 出 对 于 对 象 、 类 、 消 息 
和 方法 这 些 概 念 的 概述 ， 而 在 25. 3 节 中 将 就 这 些 概 念 的 某 些 特定 方面 做 深入 的 探讨 。25.4 节 给 
出 了 一 个 完整 的 例子 ，25. 5 节 则 对 一 些 不 同性 质 的 问题 进行 了 讨论 。25. 6 节 为 本 章 的 小 结 。 
最 后 需要 注意 两 点 : 
" 尽管 对 象 系统 是 针对 一 些 “ 复 杂 ” 应 用 ， 如 CAD/CAM， 而 发 展 起 来 的 ， 但 为 了 简化 ， 
我 们 的 例子 仍 将 基于 一 些 非常 简单 的 应 用 (如 部 门 和 雇员 等 )。 当 然 ， 这 一 简化 绝 不 会 影 
响 我 们 对 对 象 数据 库 的 探讨 ， 因 为 如 果 对 象 技 术 真 那么 有 效 的 话 ， 它 首先 应 该 能 处 理 那 些 
“简单 的 ”应 用 。 
sa 注意 我 们 在 本 章 所 关注 的 是 对 象 数据 库 系 统 ， 而 不 是 对 象 编程 或 者 对 象 编程 语言 ， 对 象 分 
析 和 设计 ,“ 对 象 建 模 ” ， 图 形 对 象 接口 等 。 最 重要 的 是 ， 我 们 并 没有 声明 在 数据 库 圭 下 
文中 就 对 象 所 做 的 评论 在 其 他 上 下 文中 也 是 有 效 的 。 
一 个 启发 性 的 例子 
本 小 节 我 们 将 给 出 一 个 简单 的 例子 ， 这 一 例子 来 自 Stonebraker 并 经 过 了 笔者 的 修改 
[25. 15j。 这 个 例子 主要 为 了 说 明 传统 的 SQL 产品 所 存在 的 一 些 问题 。 在 此 数据 库 中 (可 以 认为 
是 CAD/CAM 数据 库 很 大 程度 上 的 简化 ) 涉及 到 对 矩形 的 处 理 。 为 了 简化 起 见 ， 假 设 所 有 和 矩形 
的 边 都 与 忌 轴 和 了 轴 或 平行 或 垂直 。 这 样 ， 任 何 和 矩形 就 可 以 通过 其 左下 和 右上 两 个 顶点 坐标 
(xX1,，y1) 和 (过, 这) 唯一 标识 (如 图 25-1 所 示 )。 用 SQL 语句 可 表示 为 : 
CREATE TABLE RECTANGLES 
(Xl R22 。， 
PRIMARY KEY ( XL，YL1，X2，Y2 ) ) }; 
现在 考虑 查询 “ 找 出 所 有 与 单位 正方 形 (0，0，1，1) 重 秋 的 矩形 ”( 如 图 25-2 所 示 ) 。 对 
此 查询 ， 一 个 “明显 的 ”查询 表达 式 为 : 
SELECT ... 
FROM RECTANGLES 
WHERE ( Xl1 >= 0 AND Xl1 <= 1 AND Y1 >= 0 AND Y1 <= 1 ) 


/* bottom left corner inside unit Square */ 
OR { X2 >= 0 AND X2 <= 1 AND Y2 >= 0 AND Y2 <= 1 ) 


/* top right corner inside unit square */ 
OR Xl >= 0 AND Xl1 <= 1 AND Y2 >= 0 AND Y2 <= 1 ) 

/* top left corner inside unit square */ 
OR X2 >= 0 AND X2 <= 1 AND Y1 >= 0 AND Yl1 <= 1 ) 


/* bottom right corner inside unit square */ 


( 
( 
OR ( Xl <= 0 AND X2 >= 1 AND Y1 <= 0 AND Y2 >= 1 
/* rectangle totally includes unit square */ 
OR { Xl <= 0 AND X2 >= 1 AND YL1 >= 0 AND Yl1 <= 1 ) 
/* bottom edge crosses unit square */ 
OR ( Xl >= 0 AND Xl1 <= 1 AND Y1 <= 0 AND Y2 >= 1 ) 
/* left edge crosses unit square */ 
OR { X2 >= 0 AND X2 <= 1 AND Yl1 <= 0 AND Y2 >= 1 ) 
/* right edge crosses unit square */ 
OR ({ Xl <= 0 AND X2 >= 1 AND Y2 >= 0 AND Y2 <= 1 });， 


/* top edge crosses unit square */ 
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(练习 : 证 明 这 一 写法 是 正确 的 。) 





图 25-1 矩形 (x1, yl1, x2，y2) 图 25-2 单位 正方 形 (0, 0, 1, 1) 
然而 ， 进 一 步 思考 会 发 现 此 查询 可 以 被 更 简单 地 表示 为 : 


SELECT ... 
FROM RECTANGLES 
WHERE ( Xl1 <= 1 AND Yl1 <= 1 
/* bottom left corner is "downwind" of (1,1) */ 
AND X2 >= 0 AND Y2 >= 0 ) ; 
/* top right corner is "upwind" of (0,0) */ 
(本 章 后 面 的 习题 25. 3 要 求证 明 此 查询 表达 式 也 是 正确 的 。) 
现在 的 问题 是 : 系统 优化 器 能 把 原先 较 长 的 查询 表达 式 转换 为 相对 较 短 的 查询 表达 式 吗 ? 换 
句 话说， 假设 用 户 在 查询 时 使 用 了 前 一 种 查询 表达 式 一 一 显然 是 低 效率 的 ， 查 询 优化 器 能 否 在 执 
行 此 查询 前 把 它 转换 为 更 为 有 效 的 查询 表达 式 ? 参考 文献 [25. 15] 通过 证 明 认为 ， 至 少 就 现在 
所 使 用 的 商用 优化 器 而 言 ， 这 一 问题 的 答案 几乎 是 否定 的 。 
更 不 幸 的 是 ， 虽 然 我 们 认为 较 短 的 查询 表达 式 “更 为 有 效 ”， 但 如 果 考 虑 到 许多 产品 中 通常 
所 采用 的 存储 结构 ， 例 如 B 树 索引 ， 在 这 些 产 品 中 简化 的 查询 表达 式 的 执行 效率 仍 会 非常 低 
(一 般 来 说 ,对 于 每 一 对 XI、X2、YI 和 这 ， 都 会 检查 至 少 百 分 之 五 十 的 索引 项 )。 换 句 话说 ， 
问题 不 只 是 良好 的 优化 的 问题 。 
所 以 ， 我们 看 到 ， 传 统 的 SQL 产品 在 某 些 方面 的 确 存 在 着 不 足 。 具 体 来 说 ， 类 似 和 矩形 的 问 
题 清楚 地 显示 : 某 些 “简单 的 ”用 户 查 询 :(a) 在 传统 产品 中 毫 无 道理 地 显得 难于 表达 ; (b) 执 
行 效率 非常 低 。 这 些 考虑 都 是 目前 促使 人 们 钟爱 对 象 系统 的 主要 原因 。 
注意 : 我 们 将 在 下 一 章 对 和 矩形 问题 给 出 更 好 的 解决 方案 ( 见 26.1 节 )” 。 


25. 2 对象、 类 、 方 法 和 消息 


在 这 一 节 中 ， 我 们 介绍 对 象 方法 中 的 一 些 主要 概念 ， 即 对 象 本 身 、 对 象 类 、 方 法 和 消息 。 我 
们 也 将 在 适当 的 时 候 把 这 些 概念 与 一 些 更 熟悉 的 概念 相 联系 。 事 实 上 ， 在 一 开始 就 把 对 象 术语 与 
传统 的 术语 做 大 致 上 的 映射 是 非常 有 帮助 的 〈 如 图 25-3 所 示 ) 。 

提示 : 在 进行 详细 讨论 之 前 ， 我 们 应 该 提醒 
大 家 不 要 期 望 在 对 象 世界 见 到 你 在 关系 世界 中 所 
熟悉 的 精确 性 。 事 实 上 ， 许 多 对 象 概念 ( 至 少 那 
此 概念 的 公共 定义 是 相当 不 精确 的 ， 并 且 存在 
着 大 量 不 一 致 性 ， 甚 至 在 最 基本 的 层次 上 也 是 如 
此 (仔细 阅读 参考 文献 [25S.49，25.394 25. 42 ] 
就 会 发 现 这 一 问题 )。 尤 其 需要 指出 的 是 ， 现 在 并 ee 
不 存在 抽象 的 、 正 式 定义 的 “对 象 数据 模型 "， 同 和 





加 ”这 个 解决 方案 涉及 一 个 用 户 定义 类 型 。 当 对 象 系统 首次 进入 市 场 时 ，SQL 并 不 支持 用 户 定义 类 型 ;现在 它 支持 
了 。 实 际 上 ，SQL 目前 包含 了 几 个 使 其 更 类 似 于 “对 象 ”的 特征 ;然而 ,我们 有 意 把 这 样 的 特征 放 到 下 一 章 来 
讨论 。 
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时 也 不 存在 一 致 的 非 正 式 模型 ( 正 因 为 如 此 ， 在 本 章 中 我 们 通常 把 “对 象 模型 ”之 类 的 短语 加 
上 引号 )。 事 实 上 , 令 人 惊讶 的 是 ， 对 象 系统 在 抽象 层次 上 也 存在 着 许多 混乱 之 处 ， 特 别 是 在 模 
型 和 实现 的 区 别 方面 。 

通过 上 述 提 示 ， 大 家 应 该 明白 在 本 章 中 所 提 到 的 定义 和 解释 也 并 非 完 全 被 大 家 所 接受 ， 并且 
也 不 是 百分之百 与 实际 运行 的 系统 相 一 致 。 事 实 上 ， 这 一 领域 中 的 其 他 作者 能 够 ， 也 很 可 能 会 对 
我 们 提出 的 每 一 个 定义 或 概念 提出 质疑 。 

1. 对 象 技术 概述 

问题 : 什么 是 对 象 ? 答案 : 任何 东西 ! 

对 象 方法 中 一 个 基本 信条 是 “任何 东西 都 是 对 象 ” (有 时 “任何 东西 作为 第 一 类 对 象 ”)。 
一 些 对 象 是 不 可 变 的 ， 例 如 整数 (如 3、42) 和 字符 串 (如 “Mozart”、“Hayduke Lives!”) 。 另 
一 些 对 象 是 可 变 的 ， 例 如 在 25. 1 节 开 始 所 提 到 的 部 门 和 雇员 对 象 。 在 传统 的 术语 中 ， 不 可 变 的 
对 象 对 应 于 值 而 可 变 的 对 象 对 应 于 变量 9 一 一 这 里 所 讨论 的 值 和 变量 都 可 以 具有 任意 复杂 度 
(也 就 是 说 ， 它 们 能 够 利用 一 般 编 程 语 言 中 所 有 的 类 型 和 类 型 生成 子 : 数值 、 字 符 串 、 列 表 、 数 
组 、 栈 ， 等 等 ) 。 注 意 ; 在 一 些 系 统 中 ,“ 对 象 ”一 词 只 在 对 象 可 变 的 情况 下 才能 使 用 ， 而 “ 值 ” 
(有 时 称 为 “字面 值 ") 则 在 对 象 不 变 的 情况 下 使 用 。 甚 至 在 那些 把 “对 象 ”一 词 严格 对 应 于 这 
两 种 情况 的 系统 中 ,我 们 仍然 应 该 意识 到 ， 除非 有 明确 的 声明 ， 在 非 正 式 的 上 下 文中 “对 象 ” 
一 词 还 是 主要 针对 可 变 对 象 。 

每 个 对 象 都 有 类 型 ( 对象 中 的 术语 为 类 ) 。 单 个 对 象 有 时 特 指 对 象 实 例 (instance) ， 以 便 和 
对 象 类 型 或 类 区 分 开 。 注 意 : 在 这 里 我 们 使 用 了 编程 语言 中 熟悉 的 术语 “类 型 ”( 参 见 第 5 章 )， 
但 在 这 个 术语 中 包含 了 可 以 应 用 于 此 类 对 象 的 操作 符 ( 对 象 中 的 术语 为 方法 ) 的 集合 。 只 读 和 
更 新 操作 符 分 别称 为 观察 者 和 变化 者 。 注 意 ; 实际 上 ， 一 些 对 象 系统 严格 区 分 类 型 和 类 ， 我 们 将 
在 25.3 中 简略 讨论 一 下 这 些 系 统 ; 然而 在 不 考虑 这 些 系 统 的 情况 下 ， 这 两 个 术语 是 通用 的 。 

对 象 是 封装 的 。 这 就 意味 着 某 一 对 象 的 物理 表示 〈 即 其 内 部 结构 ) ， 如 DEPT (部 门 ) 对 象 ， 
对 使 用 这 一 对 象 的 用 户 来 说 是 不 可 见 的 。 相 反 ， 用 户 只 知道 这 一 对 象 能 够 执行 哪些 操作 ( 方 
法 )。 例 如 ,应 用 于 DEPT 对 象 的 方法 可 以 是 HIRE_EMP、FIRE_EMP、CUT_BUDGET 等 。 注 
意 : 这 些 方法 构成 了 这 一 对 象 的 唯一 操作 。 实 现 这 些 方法 的 代码 对 对 象 的 内 部 结构 是 可 见 的 
用 专业 术语 来 说 ， 这 些 代 码 〈 并 且 只 有 这 些 代码 ) 允许 “打破 封装 ”。 一 一 当然 这 些 代码 对 用 户 
来 说 仍然 是 不 可 见 的 。 

实际 上 ， 必 须 提 出 的 是 在 围绕 封装 讨论 的 对 象 文献 中 有 大 量 混淆 的 地 方 。 似 乎 最 重要 的 和 本 
书 中 所 采用 的 封装 是 ， 当 和 且 仅 当 对 象 是 第 5 章 所 说 的 标量 的 (意味 着 对 象 没 有 用 户 可 见 的 组 
件 ) ， 它 才 被 封装 。 因 此 ， 封 装 和 标量 实际 意思 相同 。 注 意 : 某 种 “和 集合” 对象 (参见 25.3 节 ) 
肯定 不 是 标量 的 ， 通 过 这 个 定义 来 看 ， 它 也 不 是 封装 的 。 相 反 ， 一 些 作 者 认为 所 有 的 对 象 都 是 封 
装 的 ， 这 不 可 避免 地 导致 了 某 种 矛盾 。 其 他 人 认为 这 个 概念 除了 意味 着 隐藏 的 内 部 结构 外 ， 还 表 
示 相 关 的 方法 在 物理 上 与 对 象 或 对 象 类 包装 在 一 起 〈 即 物理 上 是 对 象 的 一 部 分 ) 。 我 们 认为 后 面 
的 解释 混合 了 模型 和 实现 的 考虑 ; 的 确 ， 这 个 混淆 正 是 为 什么 我 们 在 第 5 章 注 明 的 根本 不 使 用 术 
语 “ 封 装 ” 的 另 一 个 原因 。 然 而 在 本 章 ， 我们 的 确 不 得 不 使 用 它 。 

封装 的 优点 在 于 : 当 对 象 内 部 结构 改变 时 ， 并 不 需要 重新 改写 使 用 了 这 些 对 象 的 应 用 ( 当 
然 ， 前 提 是 实现 对 象 方法 的 代码 随 着 这 种 内 部 结构 的 变化 而 变化 ) 。 换 名 话说， 封装 意味 着 物理 
数据 独立 性 。 

到 目前 为 止 ， 前 面 按照 数据 独立 性 所 叙述 的 封装 特性 只 在 数据 库 角度 看 有 意义 ， 但 这 并 不 是 








”然而 ， 注 意 这 个 未 加 限定 的 术语 “变量 ”一 般 用 于 对 象 上 下 文中 指 非常 具体 的 一 个 变量 一 一 局 部 变量 或 者 “ 实 
例 变量 ”一 一 变量 存放 对 象 ID (参见 本 节 的 后 面 ) 。 

外 “正如 第 5 章 和 第 20 章 提 到 的 ， 我 们 自己 推荐 一 个 更 有 说 服 力 的 原则 : 仅仅 允许 那些 通过 模型 规定 的 操作 符 ( 特 
别 是 选择 符 和 THE_ 操作 符 ) 能 够 打破 封装 ;所 有 其 他 操作 符 应 该 根据 那些 规定 的 操作 符 来 实现 。 防 御 性 的 纺 
码 ! 但 是 既然 没有 一 个 一 致 的 对 象 模型 ， 对 那些 “规定 的 操作 符 ” 的 概念 也 就 没有 一 个 一 致 的 对 象 系统 。 
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对 象 系统 中 通常 所 表述 的 概念 。 在 对 象 系统 中 ， 封 装 对 象 被 描述 为 拥有 一 块 私有 的 空间 (private 
memory) 和 一 个 公共 的 接口 (public interface ) ， 
a 私有 空间 由 实例 变量 构成 (也 被 称 为 成 员 或 属性 ) ， 其 值 表示 了 对 象 的 内 部 状态 。 在 一 个 
“ 纯 ” 系 统 中 ， 实 例 变量 除了 对 于 上 面 提 到 的 实现 方法 的 代码 外 ， 对 所 有 用 户 来 说 是 完全 
私有 和 不 可 见 的 。 然 而 许多 系统 并 非 如 此 之 “ 纯 ”， 在 这 些 系统 中 实例 变量 对 于 用 户 是 可 
见 的 。 关 于 这 一 点 我 们 在 下 一 小 节 中 还 将 提 到 。 
公共 接口 由 应 用 于 这 一 对 象 的 所 有 方法 的 接口 定义 构成 。 这 些 接口 定义 与 我 们 在 第 20 章 
所 说 的 描述 签名 (specification signature) 相对 应 ， 所 不 同 的 是 (如 下 一 段 所 解释 的 那 
样 ) : 对 象 系统 通常 要 求 这 种 标识 只 绑 定 某 一 个 特定 的 “目标 ”类 型 或 类 ， 而 在 第 20 章 
中 并 没有 这 种 要 求 〈 我 们 不 认为 这 是 必需 的 ， 甚 至 也 不 希望 这 人 么 做 [3.3])。 正 如 前 面 所 
说 ， 实 现 方法 的 代码 与 实例 变量 一 样 对 用 户 不 可 见 。 注 意 : 更 准确 地 说 ， 公 共 接 口 是 类 定 
义 对 象 的 一 部 分 ， 而 非 单 个 对 象 的 一 部 分 。 类 定义 对 象 (CDO) 是 总 的 定义 类 的 对 象 ， 
而 单个 对 象 是 它 的 一 个 实例 ; 这 有 点 类 似 于 传统 数据 库 系统 中 的 目录 项 或 描述 符 。 很 明 
显 ， 公 共 接 口 对 于 类 的 所 有 对 象 都 是 公用 的 ， 而 不 只 针对 某 些 单个 对 象 ， 因 此 ， 它 成 为 
CDO 的 一 部 分 是 有 意义 的 。 
方法 通过 消息 来 调用 。 一 条 消息 实质 上 就 是 一 个 操作 符 调 用 ， 在 调用 时 对 其 中 一 个 参数 ， 即 
目标 (target) ， 进 行 特殊 的 语法 处 理 。 例 如 ， 下 面 是 对 部 门 D 所 发 的 一 条 消息 ， 要 求 它 雇佣 和 雇 
员 E: 


D HIRE EMP ( E) 


(这 是 假设 的 语法 ; 在 25.3 节 的 “类 、 实 例 和 和 集合 的 比较 ”小 节 中 会 对 参数 D 和 E 进行 解释 ) 。 
这 里 的 目标 是 用 D 表示 的 部 门 对 象 。 在 更 传统 的 编程 语言 中 这 一 消息 的 类 似 写法 为 ( 即 平等 地 
对 待 所 有 参数 )”: 


HIRE EMP ( D, E) 


实际 上 ， 一 个 对 象 系统 总 会 有 一 些 内 置 的 类 和 方法 。 儿科 所 有 的 系统 中 都 会 提供 类 似 以 INTE- 
GER (其 方法 有 “ “<”、 “+”、 ”等 )、CHAR (其 方法 有 “ “<” “Ll? 
SUBSTR 等 ) 等 类 。 当然 ， 系统 也 为 高 级 用 户 提供 了 让 他 们 自己 来 定义 和 实现 类 和 方法 的 途径 。 

2. 实例 变量 

我 们 现在 进一步 看 看 有 关 实 例 变量 的 概念 。 事 实 上 ， 关 于 这 一 命题 还 相当 的 混乱 。 正 如 前 面 
所 述 ， 在 一 个 “ 纯 ” 系 统 中 实例 变量 对 用 户 来 说 是 不 可 见 的 。 遗 憾 的 是 ， 按 照 这 一 规定 ， 绝 大 
多 数 系统 都 不 是 “ 纯 ” 和 系统。 其 结果 是 ， 在 实际 中 我 们 必须 区 分 公共 和 私有 的 实例 变量 ; 私有 
的 实例 变量 是 真正 隐藏 的 ， 而 公共 的 实例 变量 则 不 是 。 

举例 来 说 ,假设 有 一 个 线段 对 象 类 ， 线段 在 物理 上 通过 其 起 始点 BEGIN 和 终止 点 END 来 表 
示 (回忆 一 下 ， 我们 在 第 5 章 使 用 了 相似 的 例子 )。 这 样 系统 一 般 会 允许 用 户 以 /s. BEGIN 和 
ls. END 的 表达 形式 获得 一 条 给 定 线段 !s 的 起 始点 和 终止 点 。 这 里 ，BEGIN 和 END 就 是 两 个 公 
共 实 例 变量 。( 注意 : 按照 定义 ， 访 问 公 共 实 例 变量 必须 通过 一 些 特 殊 的 语法 一 一 典型 地 ， 如 我 
们 的 例子 中 用 圆 点 来 限定 。) 如 果 线 段 的 物理 表示 改变 了 ， 人 例如， 线段 的 中 点 、 长 度 和 斜率 改变 
了 ， 那 么 凡是 包含 了 !s. BEGIN 和 ls. END 语句 的 程序 就 都 被 打破 了 ， 我 们 失去 了 数据 的 独立 性 。 

可 以 看 到 ， 公 共 实 例 变 量 在 逻辑 上 并 不 是 必需 的 。 假 设 对 于 线段 定义 了 方法 GET_BEGIN、 
GET_END、GET_MIDPOINT、GET_LENGTH 和 GET._SLOPE， 那 么 用 户 同样 可 以 通过 方法 调用 
GET_BEGIN (1s) 、GET_END (1s) 、GET_MIDPOINT (ls) 来 获得 线段 的 起 始点 、 终 止 点 、 中 
点 等 信息 。 这 样 的 话 ， 线 段 的 内 部 物理 结构 对 用 户 来 说 就 无 关 紧 要 了 一 一 只 要 各 GET 方法 都 实 





专门 处 理 其 中 一 个 参数 可 以 使 得 系统 执行 第 20 章 描述 的 运行 时 绑 定 过 程 更 容易 。 然 而 ， 这 种 方法 也 有 许多 缺点 
[3.3] ， 其 中 最 常见 的 问题 是 使 得 方法 的 实现 者 更 难以 实现 代码 。 另 外 ， 选 择 哪个 参数 在 有 两 个 或 更 多 参数 的 
情况 下 ) 作为 目标 是 任意 的 。 
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现 正确 ， 并 且 在 物理 结构 改变 时 能 够 做 相应 的 变化 。 此 外 ， 如 果 用 户 把 GET_BEGIN (1s) 缩写 
为 is. BEGIN 也 是 可 以 的 ， 但 注意 这 时 它 只 是 GET 方法 的 一 种 缩写 形式 ， 而 并 非 把 BEGIN 作为 
一 个 公共 实例 变量 。 然 而 ， 实 际 中 系统 通常 并 不 这 人 么 操作 ， 在 这 些 系统 中 公共 实例 变量 的 确 暴露 
了 对 象 的 物理 结构 ( 至 少 是 暴露 其 中 的 一 部 分 ， 虽然 男 一 些 实例 变量 是 私有 和 不 可 见 的 )。 为 了 
和 实际 情况 相 一 致 ， 在 下 面 的 论述 中 我 们 将 假设 对 象 一 般 都 存在 某 些 公共 实例 变量 ， 尽 管 从 逻辑 
上 来 说 这 一 概念 是 不 必要 的 。 

在 这 里 还 需要 并 述 另 一 个 观点 。 假 设 正 好 需要 某 些 变 量 一 一 用 户 不 妨 把 其 当 作 “实例 变 
量 ” 一 一 来 创建 某 一 特定 类 的 对 象 ”， 这 并 不 意味 着 这 些 “ 实 例 变 量 ” 能 用 来 达到 任意 目的 。 
例如 ， 假 设 创建 一 条 线段 需要 指定 BEGIN 点 和 END 点 ， 这 并 不 意味 着 通过 给 定 的 点 BEGIN 就 
能 得 到 所 有 的 线段 ; 这 一 要 求 只 有 在 适当 的 方法 被 定义 后 才 是 有 效 的 。 

最 后 ， 注 意 在 一 些 系统 中 支持 一 种 私有 实例 变量 的 变 体 一 一 保护 (protected) 实例 变量 。 如 
果 类 C 的 对 象 含 有 一 个 保护 实例 变量 P， 那 么 对 于 类 C 上 定义 的 方法 的 实现 代码 和 类 C 的 任 
意 子 类 (任意 层次 ) 上 定义 的 方法 的 实现 代码 来 说 ， 都 是 可 见 的 。 在 25.3 节 的 最 后 将 对 子 类 做 
简单 讨论 。 

3. 对 象 标识 

每 一 个 对 象 有 一 个 唯一 的 标识 〈identifier) ， 叫 做 对 象 久 或 OID。 类 似 整 数 42 这 样 的 不 可 
变 对 象 是 自我 标识 的 ， 也 就 是 说 ， 它 们 本 身 就 是 自己 的 OID。 与 此 相反 ， 可 变 对 象 拥有 (概念 上 
的 ) 地 址 作为 其 OID， 并 且 通 过 这 些 地 址 可 以 在 数据 库 的 其 他 任何 地 方 以 《概念 上 的 ) 指针 的 
形式 来 引用 相关 的 对 象 。 这 些 地 址 并 不 直接 面向 用 户 ， 而 是 被 赋 给 程序 变量 和 其 他 对 象 中 的 实例 
变量 。 在 25. 3 节 和 25. 4 节 中 将 会 进一步 讨论 这 一 问题 。 

我 们 顺便 再 来 评价 一 下 以 下 的 说 法 : 对 象 系统 的 一 个 优点 在 于 两 个 不 同 的 对 象 从 所 有 用 户 可 
见 的 角度 来 看 都 一 致 时 一 一 即 互 为 复制 一 一 仍然 可 通过 其 OID 来 区 分 。 然 而 ， 这 一 叙述 却 显得 
似是而非 ， 因 为 用 户 在 外 部 如 何 能 够 区 分 这 两 个 对 象 呢 ? 关于 这 一 问题 的 进一步 讨论 见 参 考 文献 
[6.3，6.6]， 特 别 推荐 参考 文献 [25. 17] 。 


25. 3 进一步 的 分 析 


现在 进一步 看 看 前 一 节 中 介绍 的 一 些 思想 。 假 设 我 们 希望 定义 两 个 对 象 类 ，DEPT 〈 部门) 
和 EMP (雇员 ) 。 同 时 假设 已 经 定义 了 用 户 自 定义 的 类 MONEY 和 JOB， 而 类 CHAR 是 内 置 的 。 
这 样 ， 对 DEPT 和 EMP 必要 的 类 定义 可 以 写成 如 下 形式 (假定 的 语法 ) : 


CLASS DEPT 





PUBLIC ( DEPT# CHAR, 
DNANME CHAR, 
BUDGET MONEY, 
MGR OID { EMP 


METHODS ( HIRE EMP ( OID ( EMP code ， 


), 
EMPS OID ( SET ( OID ( EMP ) ) ) ) 
) ) 
FIRE EMP ( OID ( EMP ) ) code ，..- ) ...:; 


CLASS EMP 


PUBLIC ( EMP# CHAR, 
ENAME CHAR, 
SRALARY MONEY， 


必 
— 


POSITION OID ( JOB 
METHODS ( ..，) ...; 


下 面 进行 几 点 说 明 : 

1) 我 们 通过 包含 层次 (containment hierarchy) 的 方式 来 表示 部 门 和 雇员 ， 即 EMP 对 象 在 概 
念 上 是 包含 于 DEPT 对 象 的 。 这 样 ， 类 DEPT 的 对 象 包括 一 个 公共 实例 变量 MGR ， 代 表 给 定 部 
门 的 经 理 ; 以 及 另 一 个 公共 实例 变量 EMPS， 代 表 给 定 部 门 中 的 所 有 和 雇员。 更 精确 地 说 ， 类 
DEPT 的 对 象 包括 的 公共 实例 变量 MGR ， 其 值 是 对 一 个 雇员 的 引用 (如 其 OID ) ;而 另 一 个 称 为 





OG” 这些 对 象 必须 是 可 变 的 (为 什么 ?) 。 
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EMPS 的 值 则 是 指向 一 个 雇员 引用 集合 的 引用 。 稍 后 我 们 将 对 包含 层次 的 观点 进行 详细 阐述 。 

2) 为 了 例子 的 简化 起 见 ， 我 们 在 类 EMP 的 对 象 中 没有 包含 一 个 实例 变量 ， 其 值 为 部 门 的 
OID 或 者 DEPT# 值 (一 个 “外 码 ” 实 例 变 量 ) 。 这 一 决定 与 我 们 通过 包含 层次 的 方式 来 表示 部 门 
和 雇员 的 决定 是 一 致 的 。 然 而 ， 这 意味 着 不 能 通过 直接 的 方式 从 EMP 对 象 中 获得 相应 的 DEPT 
对 象 。 在 25. 5 节 的 “关系 间 的 联系 ”小 节 中 将 对 这 一 点 做 进一步 讨论 。 

3) 我 们 注意 到 ， 每 个 类 的 定义 都 包含 有 应 用 于 此 类 对 象 的 方法 的 定义 〈 详 细 代码 省 略 ) 。 
当然 ， 这 些 方法 的 目标 类 就 是 在 其 定义 中 包含 了 方法 定义 的 类 ® 。 

图 25-4 显示 了 按照 DETP 和 BMP 类 定义 所 得 到 的 一 些 对 象 实例 。 首 先 考虑 在 图 顶部 的 EMP 
对 象 (OID 为 eee) ， 它 包括 : 

公共 实例 变量 EMP#， 其 值 为 内 置 类 CHAR 的 不 可 变 对 象 “E001”; 

s 公共 实例 变量 ENAME， 其 值 为 内 置 类 CHAR 的 不 可 变 对 象 “Smith”; 

公共 实例 变量 SALARY， 其 值 为 用 户 定义 类 MONEY 的 不 可 变 对 象 “$ 50 000”; 

公共 实例 变量 POSITION ， 其 值 为 用 户 定义 类 JOB 的 可 变 对 象 的 OID。 


or fener [ee | 


| eee | F001 | Smith | $50,000 | es 
JOB CDO for EMP 
object 


EE BE Tc 
ms snr0007000 | S$ | e | » | 


CDO for 
DEPT 


| 
lsss| ejejelelele 


一 一 EMP 对 象 oID 的 集合 一 一 CDpo for SET 
(OID{(EMP)) 





图 25-4 DEPT 和 EMP 实例 


同时 它 至 少 包含 两 个 附加 的 私有 实例 变量 ， 一 个 包含 EMP 对 象 自身 的 OD--eee; 而 另 一 





息 ) 。 注 意 : 这 两 个 OID 可 能 在 物理 上 与 对 象 存放 在 一 起 ， 也 可 能 不 放 在 一 起 。 例 如 ， 值 eee 并 
不 需要 作为 相应 的 EMP 对 象 的 一 部 分 被 存放 ; 所 必需 的 只 是 在 实现 中 通过 给 定 值 eee 能 够 定位 
EMP 对 象 (也 就 是 说 ， 在 值 eee 和 EMP 对 象 的 物理 地 址 之 间 存 在 映射 关系 ) 。 但 从 概念 上 来 讲 ， 
用 户 总 可 以 认为 OID 是 对 象 本 身 的 一 部 分 。 

现在 再 让 我 们 回 到 图 中 间 的 DEPT 对 象 ， 其 OID 为 ddd， 它 包括 : 

公共 实例 变量 DEPT#， 其 值 为 内 置 类 CHAR 的 不 可 变 对 象 “D01”。 

ms 公共 实例 变量 DNAME， 其 值 为 内 置 类 CHAR 的 不 可 变 对 象 “Mktg” 。 

s 公共 实例 变量 BUDGET， 其 值 为 用 户 定义 类 MONEY 的 不 可 变 对 象 “$ 1 000 000”。 

a 公共 实例 变量 MGR， 其 值 为 用 户 定义 类 EMP 的 可 变 对 象 的 OID 一 eee (这 是 代表 部 门 经 

理 对 象 的 OID)。 
公共 实例 变量 EMPS， 其 值 为 用 户 定义 类 SET (REF (EMP)) 的 可 变 对 象 的 OID 一 sss 





@@ ”注意 假定 的 语法 (虽然 有 些 不合 需 要 ， 但 非常 典型 ) 混合 了 模型 和 实现 的 考虑 。 同 时 注意 我 们 已 经 在 别 的 地 方 
[14. 12] 指出 ， 部 门 和 雇员 是 对 象 类 的 不 好 的 例子 ! 然而 这 一 点 进一步 的 讨论 将 偏离 这 里 的 主题 。 
合 ” 其 他 三 个 公共 实例 变量 也 被 认为 是 包含 OID ， 因 为 不 可 变 的 对 象 本 身 就 是 自己 的 OID。 
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( 见 下 文 ) 。 
m 两 个 私有 实例 变量 ， 分 别 包 含 DEPT 对 象 本 身 的 OID 一 ddd 以 及 相应 的 类 定义 对 象 的 OID。 
最 后 ，OID 为 sss 的 对 象 包括 单个 (可 变 ) EMP 对 象 OID 的 集合 ， 加 上 通常 所 要 包含 的 私 
有 实例 变量 。 
图 25-4 描述 了 这 些 对 象 的 “真实 状态 ”; 也 就 是 说 ， 此 图 阐明 了 “对 象 模型 ”的 数据 结 
构 部 分 ， 这 样 一 个 图 对 于 模型 的 用 户 来 说 是 易于 理解 的 。 然 而 ， 典 型 的 对 象 文 本 和 表示 并 不 
像 图 25-4 那样 ， 而 是 如 图 25-5 所 示 的 那 种 方式 (可 能 被 认为 是 更 高 层次 的 抽象 ， 从 而 更 容易 


理解 ) 。 
当然 ， 图 25-5 所 示 的 表达 方式 与 包含 层次 的 解 
释 更 为 一 致 。 然 而 它 掩盖 了 上 面 所 强调 的 一 个 重要 ‘| uert: oo 
事实 ， 那 就 是 ， 对象 通常 包含 的 并 非 其 他 对 象 本 身 ， : Mktg 
而 只 是 这 些 对 象 的 OID 一 一 即 指向 对 象 的 指针 。 例 BupGeT: 
如 ， 在 图 25-5 中 我 们 清楚 地 看 到 DEPT 对 象 D01 包 
含 EMP 对 象 E001 两 次 (这 可 能 就 暗示 雇员 E001 在 ‘| ENEms: Smith 
两 个 不 同 的 场地 也 许 会 有 两 种 不 同 的 工资 ， 从 而 导 
致 不 一 致 ) 。 这 种 写法 正 是 许多 混乱 的 来 源 ， 所 以 我 SALARY: 


们 倾向 于 类 似 图 25-4 的 表示 方法 。 

作为 补充 ， 我 们 注意 到 真正 的 对 象 类 定义 通常 POSITION: | job 
使 混乱 进一步 加 剧 ， 因 为 它们 一 般 总 是 不 把 实例 变 
量 定义 为 “OID” ( 如同 我 们 在 假定 的 语法 中 的 定 pr oo 
义 ) ， 而 是 直接 反映 出 其 中 的 包含 层次 关系 。 例 如 ， ENAME: Smith 
对 象 类 DEPT 中 的 实例 变量 EMPS 不 被 定义 为 OIP 
(SET (OID (EMP))), 而 是 直接 定义 为 SET saranys [ss0,000] 
(EMP) 。 虽 然 前 者 显得 麻烦 ， 但 仍然 建议 使 用 我 们 
的 定义 方式 ， 因 为 这 样 显 得 清晰 和 准确 。 

值得 指出 的 是 ， 所 有 原先 对 于 一 般 的 层次 系统 
的 批评 ， 例 如 IMS， 同 样 适用 于 包含 层次 。 由 于 篇 
幅 限 制 、 我 们 不 能 在 这 里 仔细 考虑 这 些 批评 ; 总 地 个 他 
来 说 ， 层 次 系统 缺乏 对 称 性 。 具 体 来 说 ， 层 次 系统 
不 适合 多 对 多 关系 的 表示 。 例 如 ， 考 虑 供应 商 和 零件 的 情况 : 供应 商 包含 零件 ?还 是 零件 包含 供 
应 商 ? 或 是 两 者 互相 包含 ”供应 商 、 零 件 和 工程 的 情况 呢 ? 

其 实事 情 比 我 们 所 提 到 的 还 要 复杂 。 一 方面 ， 对 象 被 称 为 (如 前 面 所 解释 的 ) 是 层次 的 ， 
这 意味 着 其 也 该 接受 对 于 层次 系统 的 批评 ; 但 另 一 方面 ， 从 图 25-4 中 我 们 又 清楚 地 看 到 ， 对 象 
系统 除了 元 组 外 根本 不 是 层次 的 ， 在 其 元 组 中 可 以 包括 以 下 任何 成 分 : 

1) 不 可 变 的 “ 子 对 象 ”( 即 类 似 整 数 或 钱 数 的 自 标识 self-identifying 的 值 ) 。 

2) 可 变 “ 子 对 象 ” 的 OID ( 即 指向 其 他 可 变 对 象 的 引用 或 指针 ， 而 这 些 可 变 对 象 很 可 能 是 
共享 的 ) 。 、 

3) 1) 、2) 或 3) 的 集合 、 列 表 、 数 组 等 。 
还 有 某 些 隐 藏 的 成 分 。 注 意 对 于 第 3) 点 来 说 ， 典 型 的 对 象 系统 支持 若干 “集合 ”类 生成 子 ， 例 
如 集合 、 列 表 、 数 组 、 无 序 单位 组 等 (尽管 一 般 不 包括 关系 !) ， 这 些 生 成 子 可 以 以 任何 方式 结 
合 。 例 如 ， 有 一 组 列表 ， 其 中 每 一 条 目录 包括 一 组 单位 组 ， 而 每 个 单位 组 又 由 一 组 指向 整数 变量 
的 指针 构成 ， 在 适当 的 环境 下 这 些 可 以 共同 构成 一 个 单一 的 可 变 对 象 。 下 面 对 此 还 将 进一步 
论述 。 

1. 对 象 ID 的 再 思考 

典型 的 关系 DBMS 依靠 用 户 定义 、 用 户 控制 的 码 (简称 “用 户 码 ") 来 标识 和 引用 实体 
(事实 上 ， 正 如 我 们 在 第 1 章 和 第 3 章 所 了 解 的， 指针 类 型 的 OID 在 关系 数据 库 中 是 禁止 的 ; 进 


POSITION: | job 
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一 步 的 讨论 参见 第 26 章 ) 。 然 而 我 们 都 知道 ， 用 户 码 的 确 有 一 些 问 题 : 参考 文献 [14. 11] 和 
[14.21] 详细 讨论 了 这 些 问题 ， 并 且 认 为 关系 DBMS 应 该 支持 由 系统 定义 的 码 (“ 代 理 ") ， 至 
少 作为 一 个 选项 。 支 持 在 对 象 系统 中 加 入 OID 在 某 种 程度 上 与 支持 在 关系 系统 中 加 入 代理 是 相 
似 的 (然而 , 千 万 不 要 把 两 者 等 同 : 代理 是 值 ， 并 且 对 用 户 可 见 ， 而 OID 是 地 址 一 一 至 少 在 概 
念 上 一 一 并 且 对 用 户 不 可 见 。 在 参考 文献 [25. 17] 中 对 这 些 既 有 区 别 又 有 联系 的 问题 进行 了 广 
泛 的 讨论 )。 

以 下 是 几 点 说 明和 问题 : 

1) 首先 ， 正 如 我 们 在 25. 4 节 将 要 看 到 的 ，OID 的 使 用 并 不 消除 对 用 户 码 的 需要 。 更 准确 地 
说 ， 尽 管 在 数据 库 内 部 所 有 对 象 间 的 引用 都 通过 OID 完成 ， 但 在 与 外 部 世界 的 交互 中 用 户 码 仍 
然 是 需要 的 。 

2) 派生 对 象 的 OID 是 什么 ? 一 一 例如 ， 给 定 的 EMP 与 相应 的 DEPT“ 连 接 ” 后 的 对 象 ， 或 
者 是 给 定 的 DEPT 在 BUDGET 和 MGR 上 “投影 ”后 的 对 象 ? ( 顺便 提 一 句 ， 这 个 关于 派生 对 象 
的 问题 很 重要 ， 但 我 们 在 后 面 的 25. 5 节 才 谈 这 个 问题 。) 

3) OID 是 人 们 批评 对 象 系统 的 使 用 效果 像 在 “重新 使 用 CODASYL” 的 根源 一 一 (如 第 1 
章 所 述 ) 术语 CODASYL 一 般 指 某 些 网 状 (关系 以 前 的 ) 数据 库 系统 ， 如 IDMS。 当 然 ，OID 趋 
向 于 导致 编程 走向 一 个 相当 低层 次 的 、 使 用 指针 跟踪 的 状态 ( 见 25.4 节 ) ， 这 的 确 容易 使 人 回 
想起 CODASYL。 同 时 ，OID 就 是 指针 的 事实 也 导致 了 以 下 的 说 法 : 

m CODASYL 系统 更 趋 近 于 对 象 系统 而 非 关 系 系统 。 

ae 关系 系统 是 基于 值 的 ， 而 对 象 系统 是 基于 标识 的 。 

2. 类 、 实 例 和 集合 的 比较 

对 象 系统 清楚 地 区 分 类 、 实 例 和 集合 的 概念 。 一 个 类 (正如 已 经 解释 的 ) 基本 上 是 一 个 数 
据 类 型 ” ， 它 可 以 是 内 置 的 ， 也 可 以 是 用 户 定义 的 ， 并 允许 任意 的 复杂 度 。 每 一 个 类 都 理解 一 条 
叫做 NEW 的 消息 ， 通 过 这 条 消息 来 创建 类 的 〈 可 变 的 ) 实例 (注意 : 由 NEW 消息 所 调用 的 方 
法 有 时 被 看 作 是 一 个 构造 函数 ) 。 例 如 〈 假 定 的 语法 ) : 


E := EMP NEW ( 'E00]', 'Smith', MONEY ( 50000 }, POS ) 


在 这 里 POS 是 一 个 程序 变量 ,包含 某 个 JOB 对 象 的 OID。 方 法 NEW 在 对 象 类 EMP 中 被 调用 
它 创建 了 类 的 一 个 新 的 实例 ， 并 给 出 初始 化 值 ， 返 回 新 实例 的 OID， 最 后 这 个 OID 被 赋 给 了 程 
序 变量 E。 

因为 对 象 能 被 任何 数量 的 其 他 对 象 所 引用 (通过 OID) ， 因 而 对 于 其 他 对 象 来 说 具有 很 好 的 
共享 性 。 尤 其 是 ， 它 们 还 能 同时 属于 任何 数量 的 集合 对 象 。 继 续 我 们 的 例子 : 


CLASS EMP_COLL 
PUBLIC™( EMPS OID ( SET ( OID ( EMP ) ) ) ) ...; 





ALL EMPS := EMP COLL NEW ( ); 
ALL EMPS ADD ( E ) ; 


解释 

1) 类 EMP_COLL 的 一 个 对 象 包含 单一 公共 实例 变量 EMPS ， 其 值 是 指向 一 个 可 变 对 象 的 指 
针 (OID) ， 而 这 个 可 变 对 象 的 值 为 一 组 指向 单个 EMP 对 象 的 指针 (OID)。 

2) ALL_EMPS 为 程序 变量 ， 其 值 为 类 EMP_COLL 某 个 对 象 的 OID。 当 赋值 操作 完成 后 ， 
ALL_EMPS 就 包含 了 这 一 对 象 的 OID ， 而 对 象 本 身 的 值 也 为 一 个 OID ， 指 向 一 个 尚未 包含 任何 
EMP 对 象 OID 的 空 集 。 

3) ADD 是 类 EMP_COLL 对 象 所 理解 的 方法 。 在 这 个 例子 中 ， 此 方法 通过 包含 类 对 象 OID 





”正如 25.2 节 所 提 到 的 ， 一 些 系统 既 使 用 “类 型 ”也 使 用 “类 ”， 其 中 “类 型 ”的 意思 是 类 型 或 者 内 涵 , “类 "” 
表示 外 延 (如 某 种 集合 ) ， 有 时 也 指 类 型 的 实现 。 其 他 系统 使 用 其 他 方式 来 用 这 些 术 语 …… 我 们 将 继续 使 用 
“类 ”表示 在 第 5 章 里 所 介绍 的 类 型 。 
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的 程序 变量 ALL_EMPS 来 调用 ， 其 结果 是 把 某 一 EMP 对 象 的 OID 通过 包含 此 OID 的 程序 变量 
加 入 到 ALL_EMPS 对 应 的 EMP_COLL 对 象 所 指向 的 OID 集合 中 (此 集合 开始 时 为 空 集 ) 。 
经 过 以 上 操作 ， 我 们 大 致 可 以 说 ， 变 量 ALL_EMPS 代表 了 一 组 EMP 的 集合 ， 而 目前 此 集合 
中 只 包含 一 个 EMP 对 象 ， 即 雇员 E001 (顺便 说 一 句 ， 请 注意 使 用 用 户 码 值 E001 的 必要 性 !) 。 
当然 ， 在 任何 时 刻 我 们 可 以 拥有 任意 个 不 同 的 、 但 互相 之 间 很 可 能 有 所 重 和 到 的 “雇员 
集合 ”: 
PROGRAMMERS := EMP COLL NEW ( ) ; 
PROGRAMMERS ADD {({ EE ); 
HIGHLY_PAID := EMP _COLL NEW ( ) ; 
HIGHLY PAID ADD ( E ); 


等 等 。 与 SQL 系统 中 的 表达 方式 相反 。 例 如 ，SQL 语句 


CREATE TABLE EMP 


( EMP# ....... NOT NULL, 
ENAME ...... NOT NULL, 
SALARY ..... NOT NULL, 
POSITION ... NOT NULL } ...; 


同时 创建 了 一 个 类 型 和 一 个 集合 。 类 型 在 表 头 定义 ， 而 集合 (初始 为 空 ， 即 为 表 的 主体 。 同 样 ， 
SQL 语句 
INSERT INTO EMP ( ... ) VALUES ( ... ) ; 


创建 了 某 个 单一 的 BMP 元 组 (假设 INSERT 只 是 插入 单个 一 行 )， 并 将 它 加 入 到 EMP 集合 中 。 
所 以 ,在 SQL 中 : 

1) 不 存在 不 包含 于 任何 “集合 ”的 EMP“ 对 象 "， 事 实 上 ， 这 里 有 且 只 有 一 个 “集合 ” 
( 见 下 面 的 讨论 ， 注 意 把 一 个 EMP 元 组 作为 一 个 “对 象 ”的 列 是 有 点 值得 怀疑 ， 我 们 将 在 第 26 
章 讨 论 ) 。 

2) 无 法 直接 创建 EMP“ 对 象 类 ”的 两 个 不 同 的 “集合 ”( 见 下 面 的 讨论 ) 。 

3) 无 法 直接 共享 不 同 的 EMP“ 对 象 集合 ”中 的 相同 “对 象 ”( 见 下 面 的 讨论 ) 。 

至 少 以 上 这 些 说 法 我 们 都 听 说 过 ， 但 事实 上 ,它们 都 是 经 不 住 仔细 推 戎 的 。 首 先 ， 可 以 通过 
外 码 机 制 来 解决 这 些 问题 ， 例如 ， 我 们 可 以 定义 两 个 更 基本 的 表 PROGRAMMERS 和 HIGHLY_ 
PAID ， 每 个 都 包含 相关 雇员 们 的 雇员 号 。 其 次 (更 为 重要 ) ， 可 以 通过 视图 机 制 来 达到 相似 的 效 
果 。 例 如 ， 可 以 定义 PROGRAMMERS 和 HIGHLY_PAID 作为 基 表 EMP 的 视图 : 


CREATE VIEW PROGRAMMERS 
AS SELECT EMP#, ENAME, SALARY, POSITION 
FROM 
WHERE POSITION = 'Programmer ' ; 


CREATE VIEW HIGHLY PAID 
AS SELECT EMP#, ENAME, SALARY, POSITION 
FROM 
WHERE SALARY > some thresholad ，} 


这 样 ， 同 一 个 EMP“ 对 象 ”当然 也 能 够 同时 属于 两 个 或 更 多 个 不 同 的 “集合 " 。 此 外 ， 由 
于 集合 中 的 成 员 恰 好 是 视图 ， 所 以 系统 自动 获取 它们 的 地 址 ， 而 不 用 程序 员 手工 设置 。 

下 面 通过 一 个 类 似 的 对 比 来 结束 讨论 ， 即 对 象 系 统 中 的 可 变 对 象 和 某 些 程 序 语言 中 所 支持 的 
显 式 动态 变量 (explicit dynamic variable， 例 如 ，PL/I 的 BASED 变量 ) 之 间 的 比较 。 就 像 给 定 
类 的 可 变 对 象 ， 对 于 一 个 给 定 类 型 也 可 以 有 任意 多 个 不 同 的 显 式 动态 变量 ， 其 存储 空间 是 在 程序 
执行 过 程 中 显 式 分 配 的 。 此 外 ， 也 像 单 个 可 变 对 象 一 样 ， 这 些 不 同 的 变量 没有 名 称 ， 只 能 通过 指 
针 来 引用 。 例 如 ,在 PL/I 中 ， 我 们 可 以 这 样 写 
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DCL XYZ INTEGER BASED ; /* XY2 是 一 个 BASED 变量 P 是 一 个 指针 变量 */ 
DCL P POINTER ; 

ALLOCATE XYZ SET ( P ); /* 创建 一 个 新 的 XYz 实例 ， 并 通过 P 指向 它 */ 

P -> XYZ = 3 ; /* 通过 Pp 把 3 赋 给 XYZ */ 


等 等 。 这 些 PL/I 代码 看 起 来 与 前 面 的 对 象 代 码 极 为 相似 ; 具体 来 说 ，BASED 变量 的 声明 类 似 于 
对 象 类 的 创建 ， 而 ALLOCATE 操作 类 似 于 类 的 一 个 实例 创建 。 这 样 我 们 就 很 清楚 为 什么 在 对 象 
模型 中 需要 OID 了 ， 因 为 对 象 不 拥有 任何 其 他 的 唯一 标识 ， 而 只 能 靠 OID 来 标识 一 一 就 像 PLXI 
中 BASED 变量 的 实例 。 

3. 类 的 层次 

如 果 不 提 一 提 类 展 次 〈class hierarchy， 不 要 和 包含 层次 的 概念 相 混 淆 ) ， 那 么 对 基本 对 象 概 
念 的 介绍 是 不 完整 的 。 然 而 ， 对 象 中 “类 层次 ”的 概念 在 本 质 上 与 第 20 章 中 所 详细 讨论 的 类 型 
层次 的 概念 是 一 致 的 ;， 所 以 在 这 里 只 做 简要 的 定义 〈 大 部 分 解释 来 自 第 20 章 ) 和 一 些 相关 的 说 
明 。 注 意 : 关于 抽象 继承 模型 ， 无 论 是 在 对 象 系统 还 是 在 其 他 领域 ， 完 全 一 致 的 方面 是 很 少 的 ， 
所 以 在 细节 描述 上 不 同 的 继承 系统 差别 会 非常 大 。 

首先 ， 对 象 类 了 被 称 为 是 对 象 类 于 的 一 个 子 类 一 一 反之 ， 对 象 类 X 被 称 为 是 对 象 类 了 的 一 
个 起 类 一 一 当 且 仅 当 类 了 的 每 个 对 象 都 为 类 X 的 对 象 (“Y ISA X”)。 所 以 类 了 的 对 象 继承 类 XX 
的 所 有 公共 实例 变量 和 方法 ” ， 其 中 对 公共 实例 变量 的 继承 称 为 结构 继承 ， 而 对 方法 的 继承 称 为 
行为 继承 。 当 然 ， 在 一 个 纯 系 统 中 只 有 行为 继承 而 没有 结构 继承 一 一 至 少 对 于 标量 或 完全 封装 的 
对 象 是 这 样 -一 一 因为 没有 可 继承 的 结构 ( 即 没有 对 用 户 可 见 的 结构 ) 。 然 而 实际 上 ， 对 象 系统 几 
乎 都 支持 一 定 程 度 的 结构 继承 〈 也 就 是 对 公共 实例 变量 的 继承 ) 。 注 意 : 如 果 一 个 子 类 除了 从 它 
的 超 类 继承 的 变量 之 外 还 有 附加 的 公共 实例 变量 ， 就 说 它 扩展 了 它 的 超 类 。 

如 果 类 了 是 类 X 的 子 类 ， 那 么 用 户 在 任何 X 类 的 对 象 被 允许 的 地 方 都 可 以 使 用 Y 类 的 对 象 
(例如 ， 作 为 不 同方 法 中 的 某 个 参数 ) 一 一 即 可 和 置换 性 原则 ， 而 这 样 就 实现 了 代码 重用 。 然 而 ， 
因为 对 象 系统 通常 不 明确 区 分 值 和 变量 一 一 即 不 可 变 对 象 和 可 变 对 象 一 一 在 值 和 变量 的 置换 方面 
很 可 能 出 更 问题 (第 20 章 中 对 此 已 有 详细 的 讨论 ) 。 尽 管 如 此 ， 把 同一 方法 应 用 于 类 于 对象 和 
类 了 对 象 的 能 力 被 称 为 多 态 性 。 

系统 一 般 都 会 有 某 些 内 置 的 类 层次 。 例 如 ， 在 OPAL 中 ( 见 25.4 节 )， 每 一 个 类 都 被 认为 
是 内 置 类 OBJECT 在 某 一 层次 上 的 子 类 (因为 “任何 东西 都 是 对 象 " ) 。OBJECT 的 内 置 子 类 包 
括 BOOLEAN、CHAR、INTEGER、COLLECTION 等 ，COLLECTION 有 一 个 子 类 BAG， 而 BAG 
又 有 一 个 子 类 SET 等 。 (但 COLLECTION、BAG 和 SET 确实 不 是 这 样 的 类 ,而 是 “类 生成 
器 ”一 一 如 Tutorial D 中 的 RELATION? 这 里 看 上 去 有 些 混淆 。) 

重要 的 一 点 是 对 象 系统 一 般 不 允许 对 象 改变 它们 的 类 (参见 对 文献 [20. 12] 的 评注 ) 。 结 
果 ， 对象 系 统 不 通过 约束 支持 泛 化 或 者 专 有 化 ; 因此 ， 这 样 的 系统 不 能 支持 我 们 认为 的 “好 ” 
的 继承 模型 。 我 们 将 在 下 一 章 详细 描述 这 一 点 ( 见 26.3 节 )。 

最 后 ， 在 一 些 对 象 系统 中 除了 单一 继承 外 ， 还 支持 多 继承 。 然 而 ， 就 笔者 所 知 尚 没有 对 象 系 
统 支持 参考 文献 [3.3] 意义 下 的 元 组 或 关系 的 继承 (无 论 是 单一 的 还 是 多 个 的 继承 ) 。 


25. 4 ”一 个 详实 的 示例 


我 们 已 经 介绍 了 对 象 系统 的 基本 概念 。 在 这 一 节 中 通过 一 个 详实 的 例子 来 说 明 如 何 把 这 些 概 
念 结合 在 一 起 一 一 也 就 是 说 ， 来 看 一 看 对 象 数据 库 是 如 何 定义 、 如 何 加 入 数据 以 及 如 何 查询 和 更 
新 数据 的 。 我 们 的 例子 基于 GemStone 产品 (来 自 GemStone 系统 有 限 公 司 ) 和 它 的 数据 语言 
OPAL [25. 13] ; 而 OPAL 基于 Smalltalk 语言 [25. 23 ] 。 注 意 ; Smalltalk 是 最 早 的 和 最 纯 的 对 象 
语言 之 一 〈 这 也 是 为 什么 我 们 选择 它 的 原因 ) 。 这 里 要 补充 一 点 ，Smalltalk 在 市 场 上 正 被 C++ 
和 Java 所 取代 。 











仿 “它们 也 可 能 继承 私有 实例 变量 ， 但 是 我 们 把 这 种 继承 看 作 实现 问题 ， 而 不 是 模型 的 一 部 分 。 
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这 个 例子 是 第 9 章 中 习题 9. 7 所 提 到 的 教育 数据 库 的 一 个 简化 版 本 。 这 个 数据 库 包 含 关于 某 
个 公司 内 部 教育 培训 计划 的 信息 。 对 于 每 门 课程 ， 数 据 库 中 包含 开设 这 门 课 的 所 有 班 的 详细 信 
息 ， 而 每 个 班 又 包含 所 有 选修 学 生 和 任课 老师 的 信息 。 最 后 ， 数 据 库 中 还 放置 了 所 有 雇员 的 具体 
信息 。 此 数据 库 的 关系 版 本 大 概 是 这 样 设计 的 : 


COURSE { COURSE#，TITLE } 

OFFERING COURSE#, OFF#, OFFDATE, LOCATION } 
TEACHER COURSE#, OFF#, EMP# } 

ENROLLMENT { COURSE#, OFF#, EMP#, GRADE } 

EMP { EMP#, ENAME, SALARY, POSITION } 


图 25-6 是 此 数据 库 的 相关 图 表 。 


A 





OFFERING 
ENROLLMENT TEACHER 


图 25-6 教育 数据 库 的 相关 图 表 


1. 数据 定义 
现在 来 看 一 看 关于 此 数据 库 的 一 系列 OPAL 定义 。 首 先是 对 象 类 EMP 的 定义 (加 入 行 号 是 
为 了 便于 下 文 的 引用 ): 


1 OBJECT SUBCLASS : 'EMP' 


2 INSTVARNAMES : #[ 'EMP#', 'ENAME', 'POSITION' ] 
3 CONSTRAINTS  : #[ #[ #EMP#, STRING ] ， 

4 [ #ENAME , STRING ] ， 

5 { #POSITION, STRING } ] ， 


解释 ; 行 1 定义 了 一 个 对 象 类 EMP， 作 为 内 置 类 OBJECT 的 子 类 。( 在 OPAL 的 术语 中 , 行 
1 向 OBJECT 对 象 发 送 了 一 条 消息 ， 要 求 它 调用 方法 SUBCLASS; INSTVARNAMES 和 CON- 
STRAINTS 确定 了 此 方法 调用 时 的 参数 。 就 像 OPAL 中 其 他 事物 一 样 ， 一 个 新 类 的 定义 是 通过 向 

一 个 对 象 发 送 一 条 消息 来 完成 的 ,) 行 2 说明 类 EMP 的 对 象 有 三 个 私有 实例 变量 EMP#、 

ENAME 和 POSITION, 行 3 ~5 则 限定 这 些 实例 变量 为 指向 类 STRING 的 对 象 。 注 意 : 在 本 节 中 
我 们 忽略 了 对 纯 语法 细节 的 讨论 (例如 上 面 所 大 量 使 用 的 记号 “#”) ， 因 为 这 些 与 讨论 的 目的 没 
有 实质 性 联系 。 

再 次 重复 一 下 ， 实 例 变 量 EMP#、ENAME 和 POSITION 是 类 EMP 的 私有 变量 ; 它们 只 能 在 
类 EMP 实现 方法 的 代码 中 使 用 。 例 如 ， 在 这 里 我 们 定义 了 方法 “get” 和 “set”【〔 即 查询 各 更 
新 ) 雇员 数目 ， 其 中 符号 “^” 可 读 作 “ 返 回 ” ): 

METHOD : EMP 


GET_EMP# 
“EMP# 


METHOD : EMP 
SET EMP# : EMP# PARM 
BMP# := EMP# PARM 


在 下 一 小 节 还 将 涉及 方法 定义 的 讨论 。 下 面 给 出 类 COURSE 的 定义 : 


1 OBJECT SUBCLASS : 'COURSE ' 


2 INSTVARNAMES : #[ 'COURSE#', 'TITLE', 'OFFERINGS' ] 
3 CONSTRAINTS : #[ #[ #COURSE#, STRING ] 

4 [ #TITLE, STRING ] ， 

5 [ #OFFERINGS，OSET ] ] . 


解释 : 行 5 确定 了 私有 实例 变量 OFFERINGS 包含 类 OSET (将 在 下 面 定义 这 个 类 ) 某 个 对 
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象 的 OID。 通 俗 地 说 ，OFFERINGS 表示 相关 课程 所 有 开设 班 的 集合 ; 换 名 话说， 我 们 把 课程 / 班 
级 的 关系 构建 成 一 个 包含 层次 ， 其 中 班级 在 概念 上 被 相应 的 课程 所 包含 。 
接 下 来 是 类 OFFERING 的 定义 : 


OBJECT SUBCLASS : 'OFFERING， 
INSTVARNAMES : #{[ 'OFF#', 'ODATE', 'LOCATION', 
'ENROLLMENTS', 'TEACHERS' ] 
{ #0FF#, STRING ] ， 
[ #0DATE, DATETIME ] ， 
[ #LOCATION, STRING ] ， 
[ #ENROLLMENTS, NSET ] ， 
[ #TEACHERS, TSET 1] ] . 


1 
2 
3 
4 CONSTRAINTS : #{f # 
5 
6 
7 
8 


解释 : 行 7 确定 了 私有 实例 变量 ENROLLMENTS 包含 类 NSET 某 个 对 象 的 OID; 通俗 地 说 ， 
ENROLLMENTS 表示 相关 班级 所 有 报名 者 的 集合 。 同 样 ，TEACHERS 表示 相关 班级 所 有 老师 的 
集合 。 所 以 ,在 这 里 我 们 又 采用 了 包含 层次 的 表达 方式 。 NSET 和 TSET 将 在 下 面 定义 。 
接 下 来 是 类 ENROLLMENT: 


1 OBJECT SUBCLASS : 'ENROLLMENT' 

2 INSTVARNAMES : #[ 'EMP', 'GRADE' ] 

3 CONSTRAINTS  : #[ #[ #EMP, EMP ] 

4 { #GRADE, STRING ] ] . 


解释 : 私有 实例 变量 EMP ( 行 3) 包含 类 EMP 某 个 对 象 的 OID， 表 示 报 名 者 所 对 应 的 具体 
雇员 信息 。 注 意 ; 为 了 保持 包含 层次 的 表示 方式 ， 我 们 把 EMP 对 象 放 在 ENROLLMENT 对 象 的 
“内 部 " 。 但 应 该 看 到 其 中 的 不 对 称 性 : 报名 是 一 个 多 对 多 的 关系 ， 但 对 该 关系 中 的 参与 者 雇员 
和 班级 的 处 理 是 完全 不 同 的 。 

最 后 为 有 关 教 师 的 类 。 为 了 更 好 地 说 明 问题 ， 我 们 对 类 TEACHER 的 定义 与 关系 数据 库 上 的 
定义 略 有 不 同 ， 把 它 作为 类 EMP 的 一 个 子 类 : 


1 EMP SUBCLASS ; ‘TEACHER 

2 INSTVARNAMES : # 'COURSES' ] 

3 CONSTRAINTS : #[ #f #COURSES, CSET ] ] . 

解释 : 行 1 定义 了 类 TEACHER 的 一 个 对 象 ， 并 作为 用 户 定义 类 BMP 的 子 类 ( 换 句 话说 就 
是 ，TEACHER “ISA”EMP)。 这 样 ， 每 个 TEACHER 对 象 拥 有 私有 实例 变量 EMP#、ENAME 
和 POSITION (都 从 类 EMP 继承 而 来 ) ， 再 加 上 包含 类 CSET 某 个 对 象 OID 的 变量 COURSES ; 
CSET 对 象 表示 此 教师 可 能 教 的 所 有 课程 的 集合 。 每 个 TEACHER 对 象 同时 还 继承 所 有 EMP 的 
方法 。 

正如 已 经 提 到 的 ， 上 面 的 类 中 都 假设 一 些 集合 类 (ESET、CSET、OSET 、NSET 和 TSET) 
的 存在 。 这 里 给 出 这 些 类 的 定义 : | 


1 SET SUBCLASS 3 'ESET' 

2 CONSTRAINTS : EMP ， 

解释 : 行 1 定义 类 ESET 的 一 个 对 象 ， 并 作为 内 置 类 SET 的 子 类 。 行 2 规定 类 ESET 对 象 的 
内 容 为 类 EMP 对 象 OID 的 集合 。 从 理论 上 讲 ， 我 们 能 创建 任意 多 个 类 ESET 的 对 象 ， 但 在 这 里 
只 创建 一 个 对 象 〈 见 下 一 小 节 ) ， 在 这 个 对 象 中 包含 目前 数据 库 中 存在 的 所 有 EMP 对 象 的 OID。 
通俗 地 说 ， 单 个 ESET 对 象 可 以 被 认为 是 关系 数据 库 中 基 表 EMP 在 对 象 系统 中 的 替代 物 。 

CSET、OSET、NSET 和 TSET 的 定义 都 是 类 似 的 〈 见 下 面 的 定义 ) 。 然 而 对 于 每 个 类 ， 我 们 
不 得 不 创建 若干 个 对 象 而 不 是 一 个 ; 例如 ， 对 于 每 个 COURSE 对 象 都 会 有 一 个 独立 的 OSET 集 
合 对 象 。 


SET SUBCLASS : “CSET 
CONSTRAINTS : COURSE . 





@@ 注意， 这 里 被 继承 的 是 私有 表示 〈 如 物理 实现 ) 。 
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SET SUBCLASS : 'OSET' 
CONSTRAINTS : OFFERING . 

SET SUBCLASS : 'NSET' 
CONSTRAINTS : ENROLLMENT . 

SET SUBCLASS : “TSEBT ' 
CONSTRAINTS : TEACHER 。 

2. 扩充 数据 库 


现在 考虑 一 下 扩充 数据 库 过 程 中 所 要 涉及 的 问题 。 依 次 考虑 五 个 基本 对 象 类 (EMP、 
COURSE 等 ) 。 首 先是 雇员 。 我 们 试图 通过 一 个 ESET 对 象 包含 所 有 存在 的 EMP 对 象 的 OID， 所 
以 首先 需要 创建 ESET 对 象 : 


OID OF SET OF ALI, EMPS := ESET NEW . 


此 赋值 语句 右 侧 的 表达 式 返 回 类 ESET 的 某 个 空 实例 的 OID ( 即 EMP 对 象 OID 的 空 集 ) ; 此 
新 实例 的 OID 赋予 程序 变量 OID_OF_SET_OF_ALL_EMPS。 所 以 我 们 可 以 很 粗略 地 说 ，OID_OF 
_SET_OF_ALL_EMPS 表示 “所 有 雇员 的 集合 ”。 

现在 ， 每 当 创建 一 个 新 的 EMP 对 象 就 要 把 这 个 对 象 的 OID 通过 变量 OD_ OF_SET_OF_ 
ALL_EMPS 插入 到 ESET 对 象 中 。 因 此 我 们 定义 一 个 方法 来 创建 EMP 对 象 ， 并 将 其 OD 插入 到 
ESET 对 象 中 (也 可 以 通过 应 用 程序 来 实现 同样 的 任务 )。 下 面 是 此 方法 的 代码 : 


1 METHOD : ESET ”匿名 ! 
AD ”参数 


3 
4 RD 
5 | EMP OID ” 局 部 变 
6 EMP OID := EMP NEW . ” 新 雇员 
7 EMP OID SET EMP# : EMP# PARM ; ”初始 化 
8 加 SET ENAME : ENAME PARM ; 

9 SET POS : POS PARM . 
10 SELF ADD: EMP_OID . ”插入 
11 % 


解释 : 

1) 行 1 定义 了 下 面 的 代码 (到 行 11 的 百 分 号 标志 为 止 ) 为 应 用 于 类 ESET 对 象 的 方法 ( 当 
然 ， 事实 上 在 运行 时 系统 中 只 有 一 个 类 ESET 的 对 象 ) 。 

2) 行 2~4 定义 了 三 个 参数 ， 分 别 赋 予 外 部 名 ADD_EMP#、ADD_ENAME 和 ADD_POS。 
这 些 外 部 名 在 调用 方法 的 消息 中 使 用 。 其 相应 的 内 部 名 EMP#_PARM、ENAME_PARM 和 POS _ 
PARM 则 在 方法 的 实现 代码 中 使 用 。 

3) 行 5 定义 了 局 部 变量 EMP_OID, 行 6 将 新 生成 的 尚未 初始 化 的 EMP 实例 的 OID 赋予 此 
变量 。 

4) 行 7~9 向 新 的 EMP 实例 发 送 一 条 消息 ， 此 消息 中 调用 了 三 个 方法 (SET_EMP#、SEI- 
ENAME 和 SET_POS) ， 并 且 赋 给 每 个 方法 一 个 变量 (EMP#_PARM 赋 给 SET_EMP#、ENAME_ 
PARM 赋 给 SET_ENAME 、POS_PARM 赋 给 SET_POS) 。 注 意 : 这 里 我 们 假设 方法 SET_ENAME 
和 SET_POS 与 方法 SET_EMP# 类 似 ， 都 已 定义 过 了 。 

5) 行 10 向 SELF 发 送 一 条 消息 。SELF 是 一 个 特殊 的 变量 ， 表 示 方 法 所 对 应 的 对 象 目前 正 
在 使 用 之 中 〈 也 就 是 说 当前 的 目标 对 象 ) 。 此 消息 调用 对 象 的 内 置 方法 ADD (ADD 是 所 有 集合 
都 理解 的 方法 ) ;使 用 此 方法 的 结果 是 将 EMP_OID 所 标识 对 象 的 OD 插入 到 SELF 所 标识 的 对 
象 中 去 〈 这 样 就 保证 了 ESET 对 象 包含 现存 所 有 EMP 对 象 的 OID) 。 注 意 : 使 用 特殊 变量 SELF 
的 原因 是 目标 对 象 还 没有 其 自身 的 名 称 〈 见 行 1)。 

6) 注意 (如 行 1 注释 中 所 指出 的 ) 对 于 类 中 所 定义 的 方法 同样 没有 命名 。 事 实 上 ， 在 一 般 
情况 下 OPAL 的 方法 都 没有 名 字 ， 而 是 由 它们 的 特征 符 〈signature) 来 标识 (在 OPAL 中 定义 为 
方法 所 对 应 的 类 名 和 相应 参数 的 外 部 名 两 者 的 结合 ) 。 这 种 传统 的 方式 可 能 导致 累 效 的 表达 ; 此 
外 ， 如 果 两 个 方法 都 应 用 于 同一 个 类 并 且 采 用 相同 的 参数 ， 则 两 个 方法 参数 的 外 部 名 必须 强制 
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不 同 。 
我 们 已 经 有 了 把 新 建 的 EMP 对 象 插 和 人 数据库 的 方法 ， 但 仍 没 有 实际 插入 任何 数据 ， 所 以 现 
在 执行 下 列 代码 : 


OID OF SET OF ALL EMPS ADD EMP# : 'E009， 
ADD_ENAME : 'Helms， 
RDD_POS  : 'Janitor' . 


这 条 语句 为 雇员 E009 创建 了 一 个 EMP 对 象 ， 并 把 此 EMP 对 象 的 OID 加 入 到 所 有 现存 EMP 
对 象 的 OID 集合 中 。 

应 该 看 到 ， 这 时 类 EMP 的 内 置 方法 NEW 只 能 在 上 述 定义 的 类 ESET 的 方法 中 使 用 ， 而 不 能 
单独 使 用 ， 否 则 将 会 出 现 一 些 悬 空 的 EMP 对 象 ， 也 就 是 说 ， 和 雇员 不 属于 包含 所 有 现存 EMP 对 象 
OID 的 ESET 对 象 。 注 意 : 我 们 不 得 不 多 次 重复 如 “上 述 定义 的 方法 ”和 “ESET 对 象 包含 所 有 
现存 EMP 对 象 的 OID”， 因 为 没有 名 称 的 东西 是 很 难 谈论 的 。 

现在 我 们 转 到 课程 对 象 。 雇 员 对 象 是 一 种 最 简单 的 情况 ， 因 为 它们 相当 于 “规则 实体 ” (使 
用 了 E/R 模型 的 术语 ) ， 并 且 不 包含 任何 嵌 人 对 象 (不 可 变 对 象 除外 ) 。 相 对 而 言 ， 课 程 对 象 的 
情况 要 复杂 一 些 ， 虽 然 还 是 “规则 实体 ”， 但 从 概念 上 来 说 包含 其 他 工人 的 可 变 对 象 。 大 致 说 
来 ,我们 必须 经 过 如 下 的 步骤 : 

1) 使 用 类 CSET 的 方法 NEW 创建 一 个 未 初始 化 的 空 的 “课程 集合 ” (实际 上 是 COURSE 
OID) 。 

2) 定义 某 个 方法 来 新 建 一 个 COURSE 对 象 ， 并 将 其 OID 加 入 到 “课程 集合 ”中 。 此 方法 
使 用 两 个 确定 的 参数 COURSE# 和 TITLE ， 使 所 创建 的 COURSE 对 象 拥有 确定 的 值 ; 同时 它 还 调 
用 类 OSET 的 方法 NEW 创建 一 个 未 初始 化 的 空 集 ， 用 来 包含 类 OFFERING 对 象 的 OID， 并 把 此 
空 集 的 OID 赋 给 新 建 COURSE 对 象 的 变量 OFFERINGS 。 

3) 对 于 每 一 门 课程 反复 调用 上 述 方法 创建 COURSE 对 象 。 

接 下 来 为 班级 。 步 又 依次 如 下 : 
1) 定义 某 个 方法 新 建 一 个 OFFERING 对 象 。 此 方法 使 用 三 个 确定 的 参数 OFF#、ODATE 和 
LOCATION ， 使 所 创建 的 OFFERING 对 象 拥有 确定 的 值 。 它 同时 还 包括 : 
四 调用 类 NSET 的 方法 NEW 创建 一 个 未 初始 化 的 空 集 ， 用 来 包含 类 ENROLLMENT 对 象 的 
OID， 并 把 此 空 集 的 OID 赋 给 新 建 OFFERING 对 象 的 变量 ENROLLMENTS。 

e 调用 类 TSET 的 方法 NEW 创建 一 个 未 初始 化 的 空 集 ， 用 来 包含 类 TEACHER 对 象 的 OID， 
并 把 此 空 集 的 OP 赋 给 新 建 OFFERING 对 象 的 变量 TEACHERS。 

2) 该 方法 还 将 使 用 参数 COURSE#， 并 把 COURSE# 的 值 用 来 : 

确定 新 建 OFFERING 对 象 所 对 应 的 COURSE 对 象 (下 一 小 节 中 将 会 讲解 如 何 实现 这 一 
过 程 )” 。 

s 确定 对 应 COURSE 对 象 的 “所 有 班级 的 集合 ”。 

a 把 新 建 OFFERING 对 象 的 OID 加 入 到 适当 的 “所 有 班级 集合 ”中 。 
注意 ，( 如 本 章 前 面 所 提 到 的 ) OID 的 使 用 并 不 能 避免 对 用 户 码 的 需要 ， 如 COURSE#。 事 实 上 ， 
这 些 码 值 不 光 在 外 部 世界 引用 对 象 时 需要 ， 同 时 在 数据 库 内 部 也 是 某 些 查找 的 基础 。 

3) 最 后 ， 对 于 每 个 班级 反复 调用 上 述 方法 创建 OFFERING 对 象 。 

应 该 看 到 ，( 为 了 保证 我 们 的 包含 层次 设计 思想 ) 我 们 没有 选择 建立 一 个 “所 有 班级 集合 ”。 
这 就 意味 着 对 于 许多 以 所 有 班级 作为 查询 范围 的 查询 一 一 例如 “ 找 出 所 有 在 纽约 上 课 的 班 
级 ”一 一 来 说 ， 需 要 在 程序 上 有 一 定量 的 工作 区 代码 〈( 见 下 一 人 小节) 。 

接 下 来 是 报名 对 象 。 报 名 对 象 和 班级 对 象 的 不 同 之 处 在 于 ENROLLMENT 对 象 包括 实例 变量 
EMP， 其 值 为 相关 EMP 对 象 的 OHD 。 因 此 必要 的 创建 步骤 如 下 : 





后 ”当然 ， 如 果 相 关 的 课程 不 能 找到 ， 这 个 方法 必须 拒绝 创建 新 的 班级 。 我 们 在 这 些 讨论 中 省 略 了 这 种 异常 情况 的 
详细 的 讨论 。 
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1) 定义 某 个 方法 新 建 一 个 ENROLLMENT 对 象 。 此 方法 使 用 四 个 确定 的 参数 COURSE#、 
OFF#、EMP# 和 GRADE， 并 通过 GRADE 值 来 真正 创建 ENROLLMENT 对 象 。 同 时 ， 它 还 包括 : 

a 使 用 COURSE# 和 OFF# 的 值 确定 与 新 建 ENROLLMENT 对 象 相对 应 的 OFFERING 对 象 。 

m 确定 对 应 OFFERING 对 象 的 “所 有 报名 者 的 集合 ”。 

s 把 新 建 ENROLLMENT 对 象 的 OID 加 入 到 适当 的 “所 有 报名 者 集合 ”中 。 

此 外 ， 它 还 包括 : 

和 使 用 EMP# 的 值 来 确定 相关 的 EMP 对 象 。 

a 将 EMP 对 象 的 OID 赋 给 新 建 ENROLLMENT 对 象 的 变量 EMP。 

2) 对 于 每 个 报名 者 反复 调用 上 述 方法 创建 ENROLLMENT 对 象 。 

最 后 是 老师 对 象 。 老 师 对 象 与 班级 对 象 的 不 同 之 处 在 于 类 TEACHER 是 类 EMP 的 一 个 子 类 ， 
所 以 创建 步骤 为 : 

1) 定义 某 个 方法 新 建 一 个 TEACHER 对 象 。 此 方法 使 用 三 个 确定 的 参数 COURSE#、OFF# 
和 EMP#。 它 还 包括 : 

e 使 用 EMP# 的 值 来 确定 相应 的 EMP 对 象 。 

s 把 已 知 EMP 对 象 的 特定 类 ( 含 对 象 的 具体 值 ) 转换 为 TEACHER 对 象 的 特定 类 ， 因 为 此 

时 雇员 同时 也 是 老师 (这 种 类 的 转换 完全 基于 特定 的 系统 ， 所 以 在 这 里 不 做 更 多 的 描 
述 )。 

此 外 ， 它 还 包括 : 

使 用 COURSE# 和 OFF# 的 值 确定 与 新 建 TEACHER 对 象 相对 应 的 OFFERING 对 象 。 

m 确定 对 应 OFFERING 对 象 的 “所 有 老师 集合 ”。 

5 把 新 建 TEACHER 对 象 的 OID 加 入 到 适当 的 “所 有 老师 集合 ”中 。 

2) 老师 所 能 教 的 所 有 课程 的 集合 必须 确定 ， 并 在 TEACHER 对 象 的 COURSE 实例 变量 中 设 
置 。 我 们 忽略 此 步骤 的 具体 过 程 。 

3) 对 于 每 位 老师 反复 调用 上 述 方法 创建 TEACHER 对 象 。 

3. 查询 操作 

在 进入 查询 操作 的 细节 之 前 ， 我 们 需要 指出 的 是 : OPAL ( 和 大 多 数 对 象 语言 一 样 ) 实际 上 
是 一 个 记录 层 (或 对 象 层 ) 上 的 语言 而 非 集合 层 上 的 语言 。 所 以 ， 对 于 大 多 数 问题 都 需要 程序 
员 编 写 程序 代码 。 让 我 们 来 看 一 个 简单 的 查询 示例 “找到 课程 C001 在 纽约 的 所 有 班级 ”。 
为 简便 起 见 ， 我 们 假设 存在 一 个 变量 OOSOAC ， 其 值 为 “所 有 课程 集合 ”的 OID。 这 样 ， 查 询 
的 代码 可 写成 : 





1 | COURSE C001 , COO1 OFFS , C001_ NY OFFS | 


2 COURSE C001 

3 := DOSOAC DETECT : [ :CX | ( CX GET COURSE# ) = 'C001' ] ， 
4 C0O01_OFFS 

5 := COURSE C001 GET OFFERINGS . 

6 CO0l NY OFFS 

7 := CO01 OFFS SELECT : : 

8 :OX | ( OX GET LOCATION ) = 'New York' }. 

9 “ C001 NY OFFS . : 


解释 : 

1) 行 1 声 明了 三 个 局 部 变量 ， COURSE_C001， 用 来 获取 课程 C001 的 OID; C001_OFFS ， 
用 来 获取 课程 C001 的 所 有 班级 OID 集合 的 OID; C001_NY_OFFS， 用 来 指向 实际 获取 的 班级 
OID 集合 的 OID ( 即 在 纽约 的 所 有 班级 ) 。 

2) 行 2~3 向 变量 OOSOAC 表示 的 〈 集 合 ) 对 象 发 送 一 条 消息 。 消 息 调用 集合 的 内 置 方法 
DETECT， 其 参数 为 下 列表 达 式 : 


{ :x | p(x) ] 


在 这 里 p(x) 是 变量 * 的 条 件 表达 式 ， 其 中 * 为 值 域 变量 ， 用 来 限定 DETECT 所 操作 的 集合 范 
玮 〈 在 这 里 即 COURSE 对 象 的 集合 ) 。DETECT 的 结果 为 x 集合 中 第 一 个 满足 p(x) 条 件 的 对 
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象 OID， 在 这 里 即 课程 C001 的 COURSE 对 象 ” 。COURSE 对 象 的 OID 赋 给 了 变量 COURSE _ 
C001。 注 意 :; 方法 DETECT 可 能 还 需要 一 个 “例外 ” (escape) 参数 来 处 理 找 不 到 任何 对 象 满足 
条 件 p (x) 的 情况 。 具 体 细节 我 们 不 再 考虑 。 

3) 行 4~5 将 课程 C001 中 “所 有 班级 集合 ”的 OID 赋 给 变量 C001_OFFS。 

4) 行 6~8 与 行 2~3 非常 相似 ; 内 置 方法 SELECT 的 操作 过 程 与 方法 DETECT 的 操作 过 程 
几乎 一 致 ， 只 不 过 它 返 回 的 是 所 有 满足 条 件 p (x) 的 对 象 OID 集合 的 OID。 在 这 里 即 把 课程 
C001 所 有 在 纽约 的 班级 OID 集合 的 OID 赋 给 变量 CO01_NY_OFFS。 

5) 最 后 , 行 9 将 OD 返回 给 方法 的 调用 者 。 

在 这 个 例子 中 需要 指出 几 点 : 

e 首先 注意 到 ， 在 SELECT 和 DETECT 中 条 件 表达 式 p(x) 只 可 以 是 一 系列 简单 标量 比较 的 

交集 (此 为 最 复杂 的 情况 ) 一 一 也 就 是 说 ，p(x) 并 不 能 拥有 任意 的 复杂 度 。 

m 在 SELECT 和 DETECT 中 参数 表达 式 外 的 括号 可 以 换 成 大 括号 。 在 OPAL 中 使 用 大 括号 
意味 着 在 方法 里 可 以 使 用 索引 (如果 有 的 话 ) 。 如 果 只 使 用 括号 ， 则 不 用 索引 。 

m 当 我 们 说 方法 DETECT 返回 第 一 个 满足 p(x) 条 件 的 对 象 的 OID 时 ， 这 里 的 “第 一 个 ”是 
依赖 于 OPAL 搜索 顺序 的 〈 集 合 本 身 没 有 内 在 的 顺序 ) 。 在 我 们 的 例子 中 没有 差别 ， 因 为 
满足 条 件 的 对 象 有 且 只 有 一 个 。 

s 正如 你 可 能 注意 到 的 ， 在 这 里 我 们 大 量 使 用 了 诸如 “DETECT 方法 ”之 类 的 表达 ， 而 我 
们 在 前 面 已 指出 ，OPAL 中 的 方法 是 没有 名 字 的 。 事 实 上 ，DETECT 和 SELECT 并 不 是 方 
法 名 (严格 意义 上 “DETECT 方法 ”这 样 的 说 法 是 不 正确 的 ) 。 它 们 只 是 内 置 未 命名 方法 
的 外 部 参数 名 。 然 而 为 了 简便 ， 我 们 不 妨 把 DETECT 和 SELECT ( 和 其 他 类 似 的 项 ) 作 
为 真正 的 方法 名 称 。 

@ 你 可 能 还 注意 到 我 们 使 用 了 “NEW 方法 ”的 表述 (很 多 次 ) 。 这 种 使 用 事实 上 是 正确 的 : 
只 有 返回 值 而 没有 参数 的 方法 ， 对 于 OPAL 中 的 方法 没有 名 称 这 一 规则 而 言 是 一 个 例外 。 

4. 更 新 操作 

关系 系统 中 INSERT 操作 在 对 象 系统 中 的 类 似 操 作 在 前 面 小 节 中 已 经 讨论 过 了 。 这 里 再 讨论 
一 下 UPDATE 和 DELETE 在 对 象 系统 中 的 类 似 操作 。 

a 更 新 : 更 新 操作 在 本 质 上 和 查询 操作 是 一 致 的 ， 只 不 过 将 其 中 的 GET 方法 换 成 SET 方法 。 

s 删除 : 内置 方法 REMOVE 用 来 删除 对 象 (更 准确 地 说 是 删除 指定 集合 中 指定 对 象 的 
OID) 。 如 果 一 个 对 象 没 有 任何 对 它 的 引用 一 一 即 不 再 被 访问 ， 则 OPAL 会 通过 一 个 垃圾 
收集 进程 自动 删除 它 。 下 面 的 例子 完成 了 “从 所 有 雇员 的 集合 中 删除 雇员 E001” 这 一 
操作 : 


E001 := OID OF SET OF ALL EMPS 
DETECT : T :EX | ( EX GET EMP# ) = 'E001' ] . 
OID OF SET OF ALL EMPS REMOVE : E001 . 


如 果 我 们 希望 遵守 诸如 ON DELETE CASCADE 这 样 的 规则 ， 该 如 何 操 作 呢 ?一 一 例如 ， 规 
则 要 求 删除 一 个 雇员 的 同时 要 把 与 此 雇员 有 关 的 所 有 报名 对 象 也 删除 ”答案 当然 是 我 们 必须 再 次 
使 用 适当 的 方法 ; 换 句 话说 ， 我 们 不 得 不 写 更 多 的 程序 代码 。 

也 许 有 人 会 认为 通过 垃圾 收集 的 方法 来 删除 对 象 在 一 定 程度 上 实现 了 ON DELETE RE- 
STRICT 规则 ， 因 为 一 个 对 象 只 要 有 对 它 的 引用 存在 就 不 能 被 真正 删除 。 然 而 这 并 不 是 必然 的 情 
况 。 例 如 ，OFFERING 对 象 并 不 包含 相应 COURSE 对 象 的 OID， 所 以 它 当 然 不 “限制 ”对 
COURSE 对 象 的 删除 。( 事实 上 ， 在 包含 层次 中 缺 省 执行 ON DELETE CASCADE 规则 ， 除 非 用 
户 选 择 下 列 两 种 方式 之 一 : (a) 在 子 对 象 中 包括 父 对 象 的 OID。(b) 在 数据 库 中 存在 其 他 对 象 
包含 有 子 对 象 的 OID 。 在 这 两 种 情况 下 包含 层次 中 的 ON DELETE CASCADE 规则 不 再 起 作用 。 
详 见 下 一 节 中 对 反 变量 的 讨论 。) 





名 ”我 们 在 这 里 假设 ， 如 GET_COURSE# 这 样 的 方法 一 一 类 似 于 本 节 前 面 显示 的 GET_ EMP# 方 法 一 一 已 经 定义 了 。 
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最 后 请 注意 ，REMOVE 方法 可 以 用 来 模拟 关系 中 的 DROP 操作 一 一 例如 ， 删 除 整个 EN- 
ROLLMENT 类 。 具 体操 作 留 作 练习 。 


25.5 混合 性 问题 


在 这 一 节 中 ， 我 们 来 简单 看 一 看 其 他 相关 问题 : 

a 特定 查询 和 相关 问题 

s 完整 性 

s 关系 间 的 联系 

me 数据 库 编程 语言 

s 性 能 上 的 考虑 

aa 对象 DBMS 还 是 一 个 DBMS 了 吗 ? 

1. 特定 查询 及 相关 问题 

我 们 在 前 面 的 讨论 中 故意 没有 强调 这 一 点 ， 但 如 果 预 定义 的 方法 是 对 对 象 进行 处 理 的 唯一 途 
径 ， 那 么 对 于 一 些 特 定 的 查询 是 不 可 能 实现 的 ! 除非 类 和 方法 都 按照 某 种 特定 的 原则 进行 设计 。 
例如 ， 如 果 类 DEPT 所 定义 的 方法 只 有 HIRE_EMP、FIRE_EMP 和 CUT_BUDGET (如 25.2 节 所 
述 ) ， 那 么 甚至 对 于 一 些 简 单 的 查询 ， 如 “ 谁 是 程序 开发 部 门 的 经 理 ” 这 样 的 问题 都 无 法 处 理 。 

基于 同样 的 原因 ， 视 图 的 定义 以 及 对 于 对 象 声 明 的 完整 性 约束 一 般 来 说 也 不 可 能 一 一 当然 ， 
除非 能 遵循 某 种 特定 的 设计 原则 。 

我 们 建议 对 这 些 问题 的 解决 方法 如 下 〈 即 遵循 “特定 的 原则 ”): 

1) 如 第 5 章 中 所 讨论 的 ， 定 义 一 系列 操作 符 (“THE_ 操 作 符 ”) 使 对 象 中 一 些 合 理 的 表达 
对 用 户 可 见 。 

2) 将 对 象 适当 地 由 人 到 关系 框架 中 (关于 这 一 问题 的 详细 讨论 放 在 下 一 章 )。 

然而 ， 上 典型 的 对 象 系统 几乎 都 不 遵循 这 一 原则 ， 相 反 :? 

1) 典型 的 对 象 系统 定义 的 操作 符 让 用 户 可 见 的 不 是 一 些 合理 的 表达 而 是 实际 的 表达 ( 见 
25. 2 节 关 于 公共 实例 变量 的 讨论 ) 。“ 所 有 的 对 象 DBMS 产品 目前 都 要 求 查询 中 〈 所 涉及 的 实例 
变量 ) 是 公共 的 ”[25.31] 。 

2) 典型 的 对 象 系统 支持 的 不 是 关系 框架 ， 而 是 基于 无 序 单元 组 、 数 组 等 构成 的 其 他 框架 。 
关于 这 一 点 ， 我 们 再 次 声明 : 在 逻辑 层次 上 ， 类 ( 即 类 型 ) 与 关系 的 结合 是 必要 的 也 是 最 好 的 
方式 ( 见 第 3 章 ); 事实 上 ， 就 核心 模型 而 言 ， 我 们 同样 认为 无 序 单元 组 和 数组 是 不 必要 和 不 合 
适 的 。 我 们 猜测 在 对 象 系统 中 强调 集合 而 不 是 关系 (事实 上 几乎 是 对 关系 的 完全 抛弃 ) 的 思想 
仍然 来 自 于 对 模型 和 实现 两 者 的 混淆 。 

关于 特定 查询 还 有 一 个 重要 的 问题 一 -- 即 查询 的 结果 属于 什么 类 ? 例如， 假设 我 们 在 25. 3 
节 提 到 的 部 门 和 雇员 数据 库 中 执行 查询 “获取 程序 设计 部 门 雇员 的 名 字 和 工资 " 。 假 设 查询 的 结 
果 包 含 (公共 ) 实例 变量 ENAME 和 SALARY, 但 在 数据 库 中 并 没有 包含 此 结构 的 类 。 这 样 我 
们 是 不 是 需要 在 查询 之 前 预定 义 这 样 一 个 类 呢 ?( 注意 ， 如 果 按 照 这 种 思路 ， 一 个 包含 n 个 实例 
变量 的 类 仅仅 为 了 支持 查询 操作 就 需要 预定 义 至 少 2" 个 类 !) 无 论 结果 类 是 什么 ， 应 用 于 结果 类 
的 方法 是 什么 呢 ? 

类 似 的 问题 在 连接 操作 中 也 会 出 现 。 如 果 能 够 对 部 门 和 雇员 对 象 进行 连接 操作 ， 那 么 其 结果 
类 又 是 什么 ? 有 哪些 相应 的 方法 ? 

也 许 因为 这 一 问题 在 纯 对 象 系统 中 很 难 回答 ， 所 以 一 些 对 象 系统 通过 支持 “路 径 跟 踪 ” 操 
作 [25. 38] 来 代替 本 身 的 连接 操作 。 以 25. 4 节 的 OPAL 数据 库 为 例 ， 以 下 可 能 是 一 个 有 效 的 路 
径 表 达 式 : 


ENROLLMENT . OFFERING . COURSE 





QG 我们 假设 这 里 讨论 的 对 象 系统 跟 大 多 数 现代 系统 -- 样 实际 上 支持 特定 查询 。 然 而 ， 早 期 的 系统 并 不 支持 ， 部 分 
原因 将 在 本 节 的 后 面 进行 讨论 。 
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其 意思 是 : “通过 此 ENROLLMENT 对 象 引用 唯一 的 OFFERING 对 象 ， 再 通过 唯一 的 OF- 
FERING 对 象 访问 唯一 的 COURSE 对 象 。。 这 个 表达 式 在 关系 上 的 类 似 表述 涉及 到 两 个 连接 操 
作 和 一 个 投影 操作 。 换 句 话说， 路 径 跟踪 只 能 访问 预定 义 的 路 径 (事实 上 就 像 关 系 系统 以 前 的 
数据 库 系 统 ) ， 并 且 只 能 访问 预定 义 类 的 对 象 (更 像 关 系 系统 以 前 的 系统 ) 。 

2 完整 性 

我 们 在 第 9 章 中 称 数 据 的 完整 性 是 非常 基本 的 问题 。 然 而 对 于 对 象 系统 ， 甚 至 是 支持 特定 查 
询 的 对 象 系统 来 说 ， 一 般 不 支持 声明 的 完整 性 约束 ; 那些 约束 只 能 通过 程序 代码 来 实现 ( 即 通 
过 方法 或 应 用 程序 ) 。 例 如 ， 考虑 9. 1 节 中 提 到 的 约束 (或 “企业 规则 ”) :“ 状 态 低 于 20 的 供应 
商 不 能 提供 数量 大 于 500 的 零件 ” 。 在 执行 此 约束 的 典型 的 程序 代码 中 至 少 需要 包括 以 下 的 方法 : 

a 创建 发 货 对 象 的 方法 

s 改变 发 货 数量 的 方法 

® 改变 供应 商 状 态 的 方法 

sa 将 发 货 赋 给 不 同 供应 商 的 方法 

以 下 是 需要 指出 的 问题 : 

1) 显然 我 们 已 经 丧失 了 由 系统 自身 来 决定 何 时 进行 完整 性 检查 的 可 能 性。 

2) 如 何 保证 所 有 使 用 的 方法 包括 了 所 有 必要 的 执行 代码 ? 

3) 如 何 避 免 用 户 跳 过 类 似 “ 创 建 发 货 对 象 ”的 方法 而 直接 使 用 方法 NEW 来 创建 发 货 对 象 
类 ， 从 而 绕 过 完整 性 检查 ? 

4) 如 果 约 束 改 变 了 ， 我 们 如 何 找到 所 有 需要 改写 的 方法 ? 

5) 如 何 保证 执行 代码 的 正确 性 ? 

6) 事务 约束 怎么 办 ? 

7) 如 何 通过 查询 来 找到 所 有 应 用 于 某 个 给 定 对 象 或 若干 个 对 象 组 合 的 约束 ? 

8) 当 数 据 库 启 动 或 其 他 例 程 执行 时 是 否 执行 约束 ? 

9) 语法 优化 怎么 办 即 如 第 18 章 所 讨论 的 ， 使 用 完整 性 约束 来 简化 查询 )? 

10) 对 于 所 有 这 些 问 题 在 创建 应 用 和 随后 的 维护 应 用 中 的 效率 的 涵义 是 什么 ? 

3. 关系 间 的 联系 

在 对 象 产 品 和 对 象 词 库 中 一 般 使 用 术语 “关系 间 的 联系 ” ( relationship) 来 表示 关系 系统 中 
通过 外 码 所 表示 的 关系 间 的 内 在 联系 ， 同 时 它们 还 为 这 种 特殊 的 完整 性 约束 提供 了 特殊 的 支持 。 
再 考虑 部 门 和 雇员 的 例子 。 在 关系 系统 中 ， 雇 员 表 中 通常 会 通过 一 个 外 码 来 参照 相应 的 部 门 ， 这 
就 实现 了 关系 间 的 内 在 联系 。 相 反 ， 在 对 象 系统 中 至 少 有 以 下 三 种 可 能 的 方式 : 

1) 每 一 个 雇员 对 象 中 包括 所 对 应 部 门 的 OID。 这 种 可 能 性 与 关系 系统 中 的 方法 类 似 ,但 并 
不 完全 一 致 (OID 和 外 部 码 并 非 同一 事物 ) 。 

2) 每 一 个 部 门 包括 对 应 雇员 OID 的 集合 。 这 种 可 能 性 与 25. 3 节 所 描述 的 包含 层次 的 方法 
一 致 。 

3) 方法 1 和 2 可 以 结合 如 下 : 


CLASS BMP ... 
( ... DEPT OID ( DEPT ) INVERSE DEPT.EMPS ) ...; 


CLASS DEPT ... 
( 。.。 


orD SET ( OID ( BMP ) ) ) INVERSE EMP.DEPT ) ， 
注意 实例 变量 EMP. DEPT 和 DEPT. EMPS 中 关于 INVERSE 的 说 明 。 这 两 个 实例 变量 互 为 
反 变量 ， EMP, DEPT 是 一 个 “引用 ”实例 变量 ，DEPT. EMPS 是 一 个 “引用 集合 ”实例 变 
量 (如 果 它 们 都 是 引用 集合 变量 ， 那 么 关系 间 的 联系 即 为 多 对 多 而 不 是 一 对 多 ) 。 





”实际 上 这 个 例子 并 不 是 我 们 所 定义 的 一 个 有 效 的 数据 库 路 径 表 达 ， 因 为 指针 指 错 了 位 置 ! 例如 ，OFFERING 并 
没有 指向 COURSE， 反 而 由 COURSE 所 指 。 
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当然 ， 每 一 种 可 能 性 都 需要 一 些 参照 完整 性 支持 。 我 们 将 在 下 文中 讨论 参照 完整 性 。 然 而 首 
先 要 提出 的 一 个 明显 的 问题 是 : 对 象 系统 如 何 处 理 涉及 两 个 以 上 类 的 关系 间 的 联系 一 一 比如 说 涉 
及 到 供应 商 、 零 件 和 工程 ”此 问题 最 好 的 即 最 为 对 称 的 ) 答案 似乎 是 创建 一 个 新 类 “SPJ”， 
每 个 SPJ 对 象 有 一 个 “ 反 变 量 ” 与 适当 的 供应 商 、 零 件 和 工程 构成 关系 间 的 联系 。 但 是 创建 一 
个 新 的 对 象 类 对 于 两 个 以 上 的 类 显然 是 最 好 的 方法 。 接 下 来 一 个 很 自然 的 问题 是 ， 为 什么 对 于 两 
个 类 的 处 理 不 采用 同样 的 方式 ? 

同样 ,关于 反 变 量 ， 为 什么 它 对 于 引信 不 对 称 性 、 方 向 性 以 及 使 同一 事物 能 够 拥有 两 个 不 同 
的 名 称 来 说 是 必要 的 ? 例如 ， 两 个 关系 表达 式 在 对 象 系统 上 的 相应 表述 为 : 


SP.P# WHERE SP.S# = S# ('S1') 
SP.S# WHERE SP.P# = P# ('Pl1') 


这 看 起 来 有 点 像 : 


S.PARTS.P# WHERE S.S# = S# ('S1') 

P.SUPPS.S# WHERE P.P# = P# ('Pl1') 

(假定 的 语法 ， 用 来 突出 本 质 区 别 一 一 例如 ， 两 个 不 同 的 关系 联系 名 称 PARTS 和 SUPPS 的 使 
用 一 一 并 且 避 免 无 关 性 。) 

参照 完整 性 : 现在 让 我 们 来 进一步 看 看 对 象 系统 中 支持 的 参照 完整 性 (参照 完整 性 经 常 被 
认为 是 对 象 系统 的 强项 ) 。 在 各 层次 上 的 支持 都 是 可 能 的 ， 以 下 的 分 类 来 自 Cattell [25. 10 ] : 

m 无 系统 支持 : 参照 完整 性 由 用 户 编写 的 代码 来 控制 (这 正好 是 原先 的 SQL 标准 中 的 规 

范 )。 

s 参照 验证 ， 系 统 检 查 所 有 参照 的 对 象 是 否 存 在 ， 其 类 型 是 否 正确 ; 然而 ， 不 允许 直接 删除 
对 象 一 一 只 有 当 对 象 上 无 任何 引用 时 才能 通过 垃圾 收集 的 方式 自动 删除 对 象 ， 就 像 在 
OPAL 系 统 中 一 样 。 正 如 25. 4 节 中 所 解释 的 ， 在 这 一 层次 的 支持 有 点 类 似 〈(a) 在 包含 层 
次 中 对 非 共享 子 对 象 所 采用 的 ON DELETE CASCADE 规则 ; (b) 对 其 他 对 象 所 采用 的 
ON DELETE RESTRICT 规则 (必须 保证 “指针 所 指 位 置 正确 ”)。 

ea 系统 维护 ， 系统 自 动 保持 所 有 参照 为 最 新 的 (例如 ， 所 引用 对 象 被 删除 时 应 设 为 空 指 
针 )。 这 一 层次 的 支持 与 ON DELETE SET NULL 规则 类 似 。 

mm“ 自 定义 语义 ”: ON DELETE CASCADE (不 在 包含 层次 中 ) 可 能 是 一 个 很 好 的 例子 。 这 
种 可 能 性 目前 来 讲 一 般 不 被 对 象 系统 所 支持 ， 而 只 能 通过 用 户 编 写 代 码 来 实现 。 

4. 数据 库 编 程 语言 

25. 4 节 中 OPAL 的 例子 表明 典型 的 对 象 系统 不 采用 SQL 的 “ 嵌 人 数据 子 语言 ” 。 相 反 ， 在 
数据 库 操 作 和 非 数 据 库 操作 中 使 用 了 同一 种 集成 式 的 语言 。 用 第 2 章 中 的 术语 来 说 ， 宿 主语 言 和 
数据 库 语 言 在 对 象 系统 中 是 紧密 结合 的 〈 事 实 上 ， 它 们 就 是 一 种 语言 ) 。 

不 可 否认 这 种 方法 有 其 优点 (这 就 是 为 什么 我 们 在 Tatorial D 中 采用 那 这 种 方法 的 原因 )， 
其 中 重要 的 一 点 就 是 使 改善 类 型 检查 成 为 可 能 [25.2]。 在 参考 文献 [25.38] 中 论证 了 另 一 个 
优点 : 

通过 采用 统一 的 语言 ， 在 编程 语言 和 嵌入 的 DML 之 间 就 不 会 再 有 阻抗 失 配 的 情况 。 

这 里 术语 阻抗 失 配 (impedance mismatch) 指 的 是 典型 的 编程 语言 一 次 一 记录 与 数据 库 语言 
(如 SQL) 一 次 一 集合 在 层次 上 的 不 同 。 这 种 层次 上 的 不 同 的 确 在 SQL 产品 中 引起 了 实际 问题 。 
然而 ， 对 此 问题 的 解决 绝 不 是 把 数据 库 语 言 的 层次 下 降 到 一 次 一 记录 层 (这 正 是 对 象 系统 所 采 
用 的 方法 )! 而 应 该 是 把 编程 语言 的 层次 上 升 到 一 次 一 集合 层 。 对 象 语言 建立 在 记录 层 〈 如 过 程 
的 ) 的 事实 其 实 是 倒退 到 关系 数据 库 以 前 的 数据 库 系 统 ， 如 IMS 和 IDMS。 

进一步 说 ， 由 于 大 多 数 对 象 系统 在 本 质 上 是 过 程 化 或 “3GL” 的 ， 所 以 它们 丢失 了 关系 系统 
在 集合 层 所 拥有 的 所 有 优点 。 具 体 来 说 ， 系 统 对 于 用 户 请 求 进行 优化 的 能 力 被 严重 前 弱 ， 这 意味 
着 一 一 正 像 在 关系 系统 以 前 的 系统 中 那样 一 一 对 性 能 的 考虑 大 部 分 留 给 了 用 户 (应 用 开发 者 或 
DBA) 。 关 于 这 一 点 见 下 一 小 节 。 
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5. 性 能 上 的 考虑 
系统 的 实际 性 能 是 所 有 对 象 系统 最 重要 的 考虑 因素 之 一 。 再 次 引用 Cattell 的 话 [25. 10 ] : 
“性 能 上 一 个 数量 级 的 差距 将 会 导致 功能 上 的 差异 ， 因 为 如 果 系 统 的 性 能 远 低 于 要 求 ， 这 种 系统 
是 不 会 有 人 使 用 的 ”( 对 原 话 稍 做 了 改动 ) 。 
许多 因素 都 与 性 能 问题 有 关 。 这 些 因素 包括 :° 
e 聚集 : 如 我 们 在 第 18 章 中 所 看 到 的 ， 在 磁盘 系统 中 ， 人 逻辑 关联 数据 在 物理 上 的 聚集 是 影 
响 性 能 的 最 重要 的 因素 之 一 。 典 型 的 对 象 系统 通过 数据 库 定 义 ( 即 有 关 类 层次 、 包 含 层 
次 或 其 他 显 式 声明 的 对 象 间 的 联系 ) 获取 逻辑 信息 ， 并 将 这 些 逻辑 信息 作为 数据 在 物理 
上 是 否 聚 集 的 一 个 指标 。 此 外 ，DBA 也 被 给 予 了 对 概念 /内 部 结 梅 映像 (使 用 了 第 2 章 中 
的 术语 ) 更 为 明晰 和 直接 的 控制 。 
a 高 速 缓存 ; 典型 的 对 象 系统 一 般 用 在 客户 /服务 器 环境 下 。 从 服务 器 端 获取 单位 聚集 数据 
( 理想 情况 当然 是 逻辑 关联 的 数据 ) ， 并 缓存 在 客户 端 留待 将 来 使 用 ， 自 然 会 提高 效率 。 
a 暗 转 ; 术语 “了 暗 转 ”(swizzling) 是 指 当 某 对 象 被 读 人 内 存 后 将 相应 OID 类 型 的 指针 所 指 
向 的 逻辑 磁盘 地 址 转换 成 主 存 地 址 的 过 程 ( 当然 ， 当 对 象 被 写 回 到 数据 库 中 时 ， 则 进行 
反 操 作 ) 。 当 应 用 中 需要 处 理 “ 复 杂 对 象 ” 并 由 此 引起 大 量 指针 切换 时 ， 采 用 这 种 技术 的 
优点 是 明显 的 。 
m 在 服务 器 端 执 行 方 法 : 考虑 查询 “获取 所 有 内 容 在 20 章 以 上 的 书 ”。 在 传统 的 关系 系统 
中 ， 书 被 表示 成 CLOB 或 BLOB 的 形式 (参见 第 5 章 ) ， 客 户 端的 应 用 程序 不 得 不 依次 查 
找 每 一 本 书 ， 并 通过 扫描 来 确定 其 是 否 有 20 章 以 上 的 内 容 。 相 反 在 一 个 对 象 系统 中 ， 可 
以 在 服务 器 端 执行 “ 获 取 章 的 数目 ”操作 ， 只 有 那些 符合 条 件 的 书 才 会 真正 传 到 客户 端 。 
因此 ， 通 过 这 种 方式 在 服务 器 上 的 执行 方法 减少 了 通信 代价 。2 
注意 : 以 上 所 涉及 的 内 容 并 不 只 是 关于 对 象 的 讨论 ， 其 实 主要 还 是 围绕 着 存储 过 程 的 讨论 
( 见 第 21 章 ) 。 一 个 传统 的 支持 存储 过 程 的 SQL 系统 和 支持 方法 的 对 象 系统 拥有 同样 的 性 能 
优势 。 
参考 文献 [25. 12] 讨论 了 关于 在 一 个 材料 单数 据 库 中 测试 系统 性 能 的 基准 测试 OO1。 此 基 
准 测试 涉及 : 
1) 随机 获取 1000 个 零件 ， 将 用 户 定义 的 方法 应 用 于 每 个 零件 。 
2) 随机 插入 1000 个 零件 ， 每 个 零件 与 三 个 其 他 的 零件 相关 联 。 
3) 随机 进行 零件 的 扩展 (explosion， 一 直到 七 层 结构 )， 将 某 个 用 户 定 义 的 方法 应 用 于 每 
个 涉及 的 零件 ， 同 时 包括 相应 的 内 爆 过 程 (implosion) 。 
根据 参考 文献 [25. 12] ， 通 过 某 个 对 象 产品 〈 不 指定 ) 与 某 个 SQL 产品 (不 指定 ) 的 比较 
显示 ， 对 象 系统 在 性 能 上 要 比 SQL 系统 高 两 个 数量 级 一 一 尤其 在 “ 温 ” 访 问 时 (在 采用 高 速 组 
存 的 情况 下 ) 更 为 明显 。 然 而 ， 参 考 文献 [25. 12] 同时 又 谨慎 地 指出 : 
这 种 差别 ……: 不 应 该 归 因 于 关系 模型 和 对 象 模 型 之 间 的 差别 …… 我 们 有 理由 相信 大 部 分 的 差 
异 来 自 于 实现 上 的 不 同 。 
当 数 据 库 “足够 大 ”( 即 当 不 再 能 把 整个 数据 库 放 人 高 速 缓存 中 ) 时 ， 这 一 差别 会 相对 小 得 
多 的 事实 支持 了 这 种 让 步 。 
在 参考 文献 [25.9] 中 描述 了 一 个 类 似 的 、 但 却 更 为 广泛 的 基准 测试 007 。 
6. 对 象 DBMS 还 是 一 个 DBMS 了 吗 ? 
注意 : 这 一 小 节 的 绝 大 部 分 内 容 来 自 参考 文献 【25. 16] ， 在 这 篇 文献 中 论证 了 对 象 系统 和 
关系 系统 之 间 的 差别 比 通常 想像 的 还 要 大 。 文 中 写 道 : 








旬 ”除了 所 列 的 因素 之 外 ， 也 可 以 认为 对 象 系统 通过 “使 用 户 更 贴近 内 核 ”( 也 就 是 说 ， 通 过 将 应 该 在 实现 中 隐藏 
的 指针 和 其 他 特征 暴露 出 来 ) 改进 了 性 能 。 

日 ”实际 上 这 种 表述 过 分 简单 。 以 数据 为 主 的 方法 如 “获取 章 的 总 数 ” 实 际 上 在 服务 器 执行 得 更 好 ， 但 其 他 方法 如 
以 显示 为 主 的 方法 可 能 在 客户 端 执行 得 更 好 。 
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对 象 数据 库 的 产生 来 自 于 开发 对 象 应 用 的 程序 员 一 一 为 了 各 种 特定 于 应 用 的 原 

因 一 一 希望 把 他 们 的 特定 于 应 用 的 对 象 放 入 永久 性 的 存储 器 中 。 这 种 永久 性 的 存储 器 也 

许 就 可 以 被 看 作 是 一 个 数据 库 ， 但 事实 上 它 是 特定 于 应 用 的 ， 而 非 共 享 的 通用 数据 库 ; 

真正 的 数据 库 应 该 能 够 适应 在 定义 数据 库 时 尚未 预料 到 的 应 用 需求 。 所 以 ,许多 专家 认 

.为 的 数据 库 应 该 具有 的 基本 特性 ， 在 对 象 系统 (至少 是 原始 的 对 象 系统 ) 中 被 简单 地 

忽略 掉 了 。 结 果 下 列 的 特性 都 未 得 到 满足 : 

1) 在 所 有 应 用 中 数据 共享 

2) 物理 数据 的 独立 性 

3) 支持 特定 的 查询 

4) 视图 和 逻辑 数据 独立 性 

5) 声明 独立 于 应 用 的 完整 性 约束 

6) 数据 归属 与 灵活 的 安全 机 制 

7) 并 发 控制 

8) 适应 所 有 应 用 的 字典 

9) 独立 于 应 用 的 数据 库 设 计 

当 在 数据 库 中 存储 对 象 的 基本 思想 提出 之 后 ， 所 有 问题 都 逐渐 暴露 出 来 了 ， 而 这 些 都 构成 了 
对 原始 对 象 数据 库 的 追加 特性 …… 一 个 重要 的 结果 是 …… 在 对 象 DBMS 和 关系 DBMS 中 的 确 存 
在 着 一 定 程度 的 差异 。 事 实 上 ， 可 以 论证 一 个 对 象 DBMS 根本 不 是 一 个 真正 的 DBMS 一 一 至 少 
与 关系 DBMS 相 比 较 而 言 。 其 基于 的 考虑 是 : 

关系 数据 库 随 时 可 以 使 用 。 换 句 话 说 ， 一 旦 系统 安装 完毕 ， 用 户 …… 能 够 马上 建立 数据 
库 ， 编 写 应 用 ， 运行 查询 ， 等 等 。 

四 相反 ， 对 象 DBMS 可 以 被 认为 是 一 个 构建 DBMS 的 软件 包 。 当 它 安 装 完毕 后 并 不 能 立即 
使 用 …… 相 反 ， 首 先 必 须 让 有 经 验 的 技术 人 员 进 行 适当 的 加 工 ， 定 义 必 要 的 类 和 方法 等 
(为 此 ， 系 统 提 供 了 一 系列 构建 块 一 一 类 库 维 护 工具 ,方法 编译 器 等 )。 只 有 当 加 工 过 程 
完成 之 后 ， 系 统 才能 被 应 用 程序 员 和 最 终 用 户 使 用 ; 换 句 话说 ， 加 工 后 的 结果 才 更 类 似 于 
一 个 DBMS 系统 。 

还 需 注 意 : 所 完成 的 “经 过 加 工 的 ”DBMS 是 特定 于 应 用 的 。 例 如 ， 它 可 能 适合 CAD/ 
CAM 应 用 ,但 对 于 医学 应 用 来 说 却 根 本 没 用 。 换 句 话 说 ， 这 仍然 不 是 一 个 通用 的 DBMS ， 而 关 
系 DBMS 却 是 一 个 真正 的 通用 DBMS 。 

文献 [25. 16] 还 驳斥 了 在 数据 库 中 可 以 包含 任意 复杂 度 的 (可 变 ) 对 象 的 思想 一 一 这 一 思 
想 经 常 被 称 为 “与 类 型 无 关 的 持久 性 ” (persistence orthogonal to type) [25.2] :9 

对 象 模型 要 求 支持 大 量 类 型 生成 子 ……… 例如 STRUCT (或 TUPLE)、LIST、ARRAY、SET、 
BAG， 等 等 .…… 通过 对 象 IJD， 这 些 类 型 生成 子 的 可 用 性 实质 上 使 得 在 应 用 程序 中 创建 的 任何 数 
据 结构 在 对 象 数 据 库 中 也 可 以 创建 为 相应 的 对 象 一 进而 这 一 对 象 的 结构 对 用 户 可 见 。 例 如 ， 考 
虑 给 定 部 门 雇员 集合 的 对 象 EX，EX 在 实现 上 可 能 是 一 个 链表 ， 也 可 能 是 一 个 数组 ， 而 用 户 不 
得 不 了 解 其 到 底 是 什么 (因为 相应 的 访问 方式 会 有 所 不 同 )。 

当然 ， 这 种 对 于 数据 库 中 存储 的 内 容 可 以 进行 任意 操作 的 方式 是 对 象 模型 和 关系 模型 的 一 个 
主要 不 同 点 ， 并 且 值 得 在 这 里 做 进一步 讨论 。 本 质 上 : 

和 对 象 模型 认为 能 够 存储 任何 所 感 兴趣 的 东西 一 一 通过 一 般 的 篇 程 语 言 机 制 所 能 创建 的 任何 

数据 结构 。 

关系 模型 也 是 同 理 ， 但 继而 坚持 认为 所 存储 的 任何 东西 都 要 以 纯 关 系 形式 星 现 给 用 户 。 

更 精确 地 说 ， 关 系 模型 并 没有 提 在 物理 层 能 够 存储 什么 …… 所 以 它 对 于 物理 层 能 够 存储 何 种 
数据 结构 没有 任何 限制 。 唯 一 的 要 求 是 ; 无 论 在 物理 层 上 的 实际 存储 结构 是 什么 ， 在 逻辑 层 都 必 
须 映 射 为 关系 ， 从 而 对 用 户 不 可 见 。 这 样 ， 关 系 系统 在 逻辑 和 物理 (数据 模型 与 实现 ) 之 间 有 





加 ”参见 文献 [25. 19]。 
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了 清晰 的 区 分 ， 而 对 象 系统 没有 这 么 做 。 一 个 相应 的 结果 是 一 一 与 传统 的 思路 相反 一 一 对 象 系统 
比 关系 系统 提供 更 少 的 数据 独立 性 。 例 如 ， 假 设 上 面 提 到 的 对 象 EX 所 在 的 对 象 数 据 库 将 其 实现 
由 数组 转变 为 链表 ， 那 么 已 存在 的 访问 对 象 EX 的 代码 该 怎么 办 ? 


25.6 小 结 


本 节 列 出 了 我 们 所 提 到 的 对 象 模型 的 主要 特性 ， 同 时 对 哪些 特性 是 必需 的 、 哪 些 是 尽量 要 有 
的 、 哪 些 是 不 应 该 有 的 、 哪 些 与 系统 是 对 象 系统 还 是 其 他 系统 的 问题 无 关 ， 等 等 ， 做 一 个 主观 评 
价 。 这 些 分 析 为 我 们 在 第 26 章 讨 论 对 象 /关系 系统 铺 平 了 道路 。 

em 对 象 类 ( 即 类 型 ) : 一 定 是 必需 的 〈 事 实 上 对 象 类 是 所 有 构建 的 基础 ) 。 

s 对 象 : 对 象 本 身 ， 无 论 是 “可 变 的 ”还 是 “不 可 变 的 ”， 同 样 是 必需 的 一 一 虽然 我 们 倾向 

于 把 它们 简单 地 称 为 变量 或 值 。 
m 对象 一 : 不 是 必需 的 ， 事 实 上 也 不 推荐 该 特性 〈 在 模型 层次 上 ) ， 因 为 它们 本 质 上 就 是 指 
针 。 对 这 个 问题 在 参考 文献 [25. 17] 中 有 广泛 讨论 。 

s 封装 : 正如 25. 2 节 中 所 解释 的 , “封装 ” 即 意味 着 标量 ， 我 们 倾向 于 使 用 “封装 ”这 个 

术语 〈 毕 竟 一 些 “ 对 象 ” 不 是 标量 的 ) 。 

w 实例 变量 : 首先 ， 按 照 定 义 私 有 (也 称 为 保护 ) 实例 变量 仅仅 是 实现 时 需要 考虑 的 问题 ， 

与 抽象 模型 的 定义 无 关 ， 而 抽象 模型 才 是 我 们 要 考虑 的 。 其 次 ， 公 共 实 例 变量 在 一 个 纯 对 
象 系统 中 不 存在 ， 所 以 也 不 用 考虑 。 结 论 是 : 实例 变量 可 以 忽略 ; “对 象 ”应 该 只 通过 
“方法 ”来 控制 。 

me 包含 层次 : 我 们 在 25. 3 节 中 已 经 解释 过 ， 既 然 典型 的 包含 层次 包含 的 是 对 象 的 OID 而 非 

对 象 ， 所 以 包含 层次 的 说 法 易 令 人 误解 ， 事 实 上 是 一 个 误 称 。 注 意 : 一 个 真正 包含 了 对 象 
本 身 的 〈 非 封装 ) 层次 是 允许 的 ， 不 过 这 一 点 通常 不 明显 ; 它 与 拥有 关系 值 属 性 的 关系 
变量 有 一 些 类 似 。 

m 方法 : 方法 的 概念 是 必需 的 ， 虽 然 我 们 倾向 于 更 为 传统 的 术语 “操作 符 " 。 将 方法 与 类 揽 

绑 是 不 必要 的 ， 并 且 会 导致 许多 问题 [3.3]; 我 们 倾向 于 将 “类 ” (类 型 ) 和 “方法 ” 
(操作 符 ) 分 开 定 义 ， 就 如 在 第 $ 章 中 所 看 到 的 ， 这 样 就 避免 了 “目标 对 象 ” 的 出 现 以 及 
使 用 “自私 的 方法 ” (selfish method ) 。 

我 们 坚持 认为 某 些 操作 符 是 必要 的 : 选择 符 (选择 符 与 其 他 事物 的 结合 能 够 有 效 

地 提供 一 种 书写 相关 类 型 值 的 方式 ) 、THE_ 操 作 符 、 赋 值 和 等 值 比 较 操 作 符 以 及 类 型 测 

试 操作 符 〈 见 第 20 章 ) 。 注 意 : 我 们 拒绝 “构造 函数 " 。 构 造 顶 数 构造 变量 ; 既然 在 数 

据 库 中 需要 的 唯一 变量 是 关系 变量 ， 那 么 我 们 所 需要 的 唯一 “构造 函数 ”是 一 个 能 够 

创建 关系 变量 (用 SQL 中 的 术语 来 说 就 是 CREAT TABLE 或 CREATE VIEW ) 的 操作 

符 。 相 反 ， 选 择 符 选择 值 。 所 以 构造 函数 返回 指向 所 构造 变量 的 指针 ， 而 选择 符 返回 所 

选择 的 值 本 身 。 
消息 : 消息 的 概念 也 是 必需 的 ， 虽 然 我 们 倾向 于 更 为 传统 的 术语 “调用 ” (注意 避免 调用 
直接 面 对 某 个 “目标 对 象 ”的 想法 ， 而 应 该 平等 地 对 待 所 有 人 参数) 。 

类 的 层次 〈 及 相关 概念 包括 继承 、 可 置换 性 、 包 含 多 态 性 等 ) : 这 些 概 念 是 有 用 的 ， 但 无 
关 紧 要 (我 们 认为 类 层次 只 是 类 的 一 部 分 ) 。 

类 、 实 例 、 集 合 的 比较 : 三 者 的 区 别 是 本 质 的 ， 但 却 是 无 关 紧 要 的 (这些 概念 的 区 别 显 
而 易 见 ) 。 

关系 间 的 联系 : 我 们 在 第 14 章 中 已 经 论证 过 ( 见 14.6 节 ) ， 把 “关系 间 的 联系 ”作为 一 
种 正式 结构 提出 并 不 是 一 个 好 主意 ， 尤 其 是 把 关系 间 的 二 进 制 联系 也 看 作 独 立 的 结构 。 同 
时 我 们 认为 将 关联 的 参照 完整 性 约束 与 一 般 的 参照 完整 性 约束 区 别 对 待 也 不 是 一 个 好 主 
意 。 
完整 的 数据 库 编程 语言 最 好 有 ， 但 也 是 无 关 的 。 然 而 ， 如 今 的 对 象 系统 中 真正 支持 的 语 
言 一 般 是 过 程 化 的 (3GL) ， 所 以 我 们 认为 不 应 该 有 此 特性 (事实 上 是 一 个 巨大 的 退步 )、 
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下 面 列 出 典型 的 “对 象 模型 ”不 支持 或 不 怎么 支持 的 特性 : 

sa 特定 查询 : 早期 的 对 象 系统 一 般 不 支持 特定 查询 。 在 目前 的 系统 中 提供 了 这 方面 的 支持 ， 
首 训 省 秆 千本 个 或 者 是 间 寺 抽查 让 窒 《六 和 的 可 条 于 不 甬 是 旧 下 人生 全 
查询 了 ) 。 

s 视图 : 一 般 不 支持 〈 本 质 上 与 不 支持 特定 查询 的 原因 相同 ) 。 注 意 : 一 些 对 象 系统 的 确 支 
持 “ 派 生 ” 或 “虚拟 ”实例 变量 (必须 是 公共 的 ); 例如 ,实例 变量 AGE 可 以 通过 目前 
的 日 期 与 实例 变量 BIRTHDATE 两 者 的 差 派生 出 来 。 然 而 ， 这 样 一 种 能 力 缺 乏 完整 的 视图 
机 制 ， 并且 我 们 也 拒绝 使 用 公共 实例 变量 。 

= 声明 的 完整 性 约束 : 一 般 不 支持 (本质 上 与 不 支持 特定 查询 和 视图 的 原因 相同 )。 事 实 
上 ,那些 支持 特定 查询 的 系统 一 般 也 不 支持 声明 的 完整 性 约束 。 

a 外 码 :“ 对 象 模型 ”有 若干 机 制 来 处 理 参 照 完 整 性 ， 但 没有 一 种 机 制 能 与 关系 模型 中 统一 
的 外 码 机 制 相 媲美 。 诸 如 ON DELETE RESTRICT 和 ON DELETE CASCADE 的 问题 一 般 
只 能 留 给 过 程 化 的 代码 (也许 是 由 方法 实现 ， 也 许 是 由 应 用 程序 代码 实现 ) 。 

a 闭 包 : 在 对 象 系统 中 又 有 什么 能 够 支持 关系 中 的 闭 包 特性 昵 ? 

ma 字典 : 对 象 系统 中 的 字典 在 哪里 ? 以 什么 形式 表现 ? 是 否 有 确定 的 标准 ? 注意 : 事实 上 ， 
字典 必须 由 专业 人 员 建 立 ， 其 任务 就 是 如 25. 5 节 中 所 讨论 的 ， 针 对 所 服务 的 应 用 适当 地 
裁剪 对 象 DBMS。 这 样 的 字典 自然 是 特定 于 应 用 的 ， 整 个 DBMS 也 是 如 此 。 

我 们 希望 支持 的 “对 象 模型 ”的 基本 特性 如 下 表 所 示 





无 “目标 ”操作 数 


简 而 言 之 ， 对 象 系 统 唯一 的 好 的 思想 是 适当 的 数据 类 型 支持 ， 其 他 所 有 的 思想 (包括 由 用 
户 来 定义 操作 符 ) 都 来 自 于 这 一 基本 思想 。 但 这 一 思想 并 不 是 全 新 的 ! 


习题 

25.1 用 你 自己 的 话 解释 下 列 术 语 : 
类 包含 层次 消息 对 象 实例 
类 的 层次 封装 方法 私有 实例 变量 
类 定义 对 象 实例 对 象 保护 实例 变量 
构造 函数 反 变 量 对 象 卫 公共 实例 变量 


25.2 ”OID 的 优点 是 什么 ? 缺点 又 是 什么 ?OID 如 何 实现 ? 

25.3 在 25.2 节 中 定义 了 SQL 查询 “获取 所 有 与 单位 正方 形 相 重 全 的 矩形 ”的 两 种 表述 形式 。 证 明 这 两 
种 表述 形式 是 等 价 的 。 

25.4 ”研究 任何 一 个 你 能 得 到 的 对 象 系统 。 这 一 系统 支持 什么 编程 语言 ? 它 是 否 支持 查询 语言 ? 如 果 支 持 
的 话 ， 是 什么 ? 依 你 的 观点 ， 此 对 象 系统 是 否 比 传统 的 SQL 功能 更 强大 ? 其 字典 是 怎样 的 ? 用 户 如 
何 查询 字典 ?有 视图 支持 吗 ? 如 果 有 ， 其 支持 是 否 广泛 ? (例如 ， 是 否 支 持 视图 更 新 ?) 如 何 处 理 
“空缺 信息 ”? 

25.5 ”设计 一 个 由 供应 商 和 零件 构成 的 对 象 数据 库 。 注 意 : 这 一 设计 是 下 面 习题 25.6 ~ 25. 8 的 基础 。 

25.6 为 你 的 对 象 数 据 库 写 一 组 OPAL 数据 定义 声明 。 

25.7 为 你 的 对 象 数 据 库 设计 必要 的 “数据 库 扩充 ”的 方法 。 





(9 有 些 人 认为 类 型 继承 是 一 个 好 的 想法 。 我 们 同意 ， 但 是 我 们 坚持 认为 支持 继承 与 支持 对 象 本 身 无 关 。 
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25.8 在 你 的 对 象 数据 库 中 ， 对 于 下 列 查询 写 出 OPAL 代码 : (a) 得 到 所 有 伦敦 的 供应 商 ; (b) 得 到 所 有 
红色 的 零件 。 

25.9 ”再 次 考虑 教育 数据 库 。 列 出 下 列 操作 所 涉及 的 内 容 : (a) 删除 一 个 报名 者 ; (b) 删除 一 个 雇员 ; 
(c) 删除 一 门 课程 ; (d) 删除 报名 类 ; (e) 删除 雇员 类 。 你 可 以 假设 存在 类 似 OPAL 中 的 垃圾 收集 
进程 。 将 有 关 这 些 问题 的 所 有 假设 列 出 来 ， 如 采用 级 联 删 除 等 。 

25. 10 ”假设 供应 商 - 零件 - 工程 数据 库 的 对 象 版 由 一 个 单一 的 包含 层次 构成 。 一 共 可 能 有 多 少 种 这 样 的 层 
次 ? 哪 种 最 好 ? 

25.11 考虑 对 供应 商 -零件 - 工程 数据 库 进 行 一 些 变化 ， 不 提供 某 供 应 商 向 某 工 程 提 供 某 零件 这 样 的 记 
录 ， 而 只 记录 : (a) 某 供应 商 提供 某 种 零件 ，(b) 某 种 零件 供给 某 个 工程 ; (c) 某 个 工程 由 某 供 
应 商 供 货 。 这 样 会 有 多 少 种 对 象 设计 (存在 或 不 存在 包含 层次 )? 

25. 12 ”考虑 25. 5 节 所 讨论 的 影响 性 能 的 因素 ， 哪 些 是 对 象 系统 所 特有 的 ? 为 什么 ? 

25. 13 ”典型 的 对 象 系统 通过 方法 以 过 程 化 的 方式 支持 完整 性 约束 ; 而 主要 的 例外 在 于 参照 完整 性 一 般 是 以 
声明 的 方式 来 实现 的 。 过 程 化 支持 的 优点 是 什么 ? 你 认为 对 参照 完整 性 约束 采用 不 同 策略 的 原因 是 
什么 ? 

25. 14 ”解释 反 变量 的 概念 。 
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Readings in Database Systems (2d ed ). San Mateo,Calif. :Morgan Kaufmann (1994). Also repub- 
lished in reference [25. 42 ] . 

Douglas K. Barry: The Object Database Handbook: How to Select, Implement,and Use Object-Oriented 
Databases. New York,N. Y. :John Wiley & Sons (1996). 

此 书 的 主要 观点 是 : 如果 必须 处 理 “ 复 杂 数 据 " ， 那 么 我 们 需要 对 象 系统 而 非 关 系 系统 。 复 
杂 数 据 的 特征 包括 : (a) 普遍 存 在 的 ; (b) 通常 缺乏 唯一 的 标识 ; (c) 涉及 大 量 多 对 多 的 关系 ; 
(d) 在 关系 模式 中 通常 需要 使 用 类 型 代码 〈 因 为 在 如 今 的 SQL 产品 中 缺乏 对 子 类 型 和 超 类 型 的 
直接 支持 ) 。 注 意 : 作者 任 “ 对 象 数据 管理 小 组 (ODMG)”[25. 11] 的 执行 主管 。 

David Beech:“A Foundation for Evolution from Relational to Object Databases,” in J. W. Schmidt， 
S. Ceri ,and M. Missikoff (eds. ), Extending Database Technology. New York ,N.Y. :Sprinaer Verlag 
(1988 ) . 

这 篇 文章 是 有 关 讨 论 将 SQL 扩展 为 “对 象 SQL” 或 “OSQL” 是 否 可 能 的 论文 之 一 (然而 
那些 “对 象 SQL” 与 传统 的 SQL 差别 很 大 ) 。 参 考 文献 [25. 32] 对 这 篇 论文 的 观点 做 了 更 详细 
的 讨论 。 

Anders Bj6rnerstedt and Christer Hultén:“ Version Control in an Object-Oriented Architecture ，in refer- 
ence [25. 30 ] . 

许多 应 用 程序 需要 给 定 对 象 提供 不 同 版 本 的 概念 ， 此 类 应 用 的 例子 包括 软件 开发 、 硬 件 设 
计 、 文 档 创 建 等 。 一 些 对 象 系统 直接 支持 这 一 概念 〈 虽 然 事 实 上 这 与 我 们 处 理 的 到 底 是 对 象 系 
统 还 是 别 的 系统 并 无 关系 ) 。 典 型 的 支持 包括 : 

@ 创建 给 定 对 象 新 版 本 的 能 力 。 典 型 的 方式 为 : 得 到 对 象 的 副本 并 将 其 从 数据 库 移 到 用 户 

的 私有 工作 区 ， 在 此 工作 区 中 可 以 在 较 长 时 间 内 (如 几 个 小 时 或 几 天 ) 保持 或 修改 对 象 。 

@ 将 给 定 对 象 版 本 转换 成 当前 数据 库 版 本 的 能 力 。 典 型 的 方式 为 : 将 对 象 从 用 户 的 工作 区 

移 回 到 数据 库 中 (可 能 需要 一 些 机 制 来 合并 不 同 的 对 象 版 本 ) 。 

m 删除 或 存档 过 时 版 本 的 能 力 。 

me 查询 给 定 对 象 版 本 历史 的 能 力 。 

注意 : (如 图 25-7 所 示 ) ， 版 本 历史 并 不 一 定 是 
线性 的 (图 中 版 本 V. 2 产生 两 个 不 同 的 版 本 V.3a 和 
V.3b， 最 后 合并 为 版 本 V. 4)。 

其 次 ， 因 为 典型 的 对 象 之 间 以 各 种 不 同 的 方式 相互 联 
系 ， 版 本 的 概念 导致 了 布局 的 概念 。 一 个 布局 就 是 相 
互联 系 的 对 象 一 致 版 本 的 集合 。 布 局 一 般 支 持 的 内 容 -图 25-7 典型 的 版 本 历史 
包括 : 
@ 将 一 个 布局 中 某 对 象 版 本 复制 到 另 一 个 布局 中 的 能 力 〈 例 如 ， 从 一 个 老 的 布局 复制 到 一 
个 新 的 布局 ) ; 

s 将 一 个 布局 中 某 对 象 版 本 移动 到 另 一 个 布局 中 的 能 力 (即将 对 象 加 入 新 的 布局 并 从 老 的 

布局 中 删除 ) 。 

从 内 部 来 看 ， 这 些 操 作 主 要 就 是 许多 指针 的 变换 。 但 是 这 些 对 于 语言 的 语法 、 语 义 ， 特 别 
是 特定 查询 来 说 有 许多 启示 。 

Paul Butterworth ,Allen Otis ,and Jacob Stein: “The GemStone Object Database Management System ,” 
CACM 34 ,No. 10 (October 1991 ) . 
Michael J Carey, David J. DeWitt, and Jeffrey F. Naughton: “The O07 Object-Oriented Database 
Benchmark “Proc. 1993 ACM SIGMOD Int Conf on Management of Pata ,Washington ,D. C，( May 
1993 ) . 
R. G. G. Cattell: Object Data Man agement (revised edition) . Reading, Mass. : Addison-Wesley 
(1994). 
第 一 本 探讨 在 数据 库 中 应 用 对 象 技术 的 完整 教程 。 以 下 这 上段 摘要 表明 在 这 一 领域 要 达到 
一 致 状态 还 有 很 长 的 路 要 走 :“ 编 程 语 言 可 能 还 需要 新 的 语法 …… 暗 转 技术 、 复 制 技术 和 新 
的 访问 方法 仍 需要 研究 …… 需 要 新 的 终端 用 户 和 应 用 开发 工具 …… 更 强大 的 查询 语言 还 需 不 
断 发 展 …… 在 并 发 控制 方面 需要 有 新 的 研究 …… 时 间 锥 和 基于 对 象 的 并 发 语义 需要 进一步 控 
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讨 …… 需 要 有 性 能 模型 …… 在 知识 管理 方面 的 工作 需要 与 对 象 和 数据 管理 能 力 结合 考虑 :…… 
这 将 导致 复杂 的 优化 问题 …… 研 究 人 员 缺 乏 必 要 的 专业 知识 …… 对 象 数据 库 的 联合 需要 进 … 
步 研 究 。” 
R. G. G. Cattell and Douglas K. Barry (eds. ) :The Object Data Standard: ODMG 3. 0. San Francisco, 
Calif. :Morgan Kaufmann (2000). 

ODMG 一 般 是 指 “ 对 象 数据 管理 小 组 ”所 提出 的 一 系列 提案 ; 这 是 一 个 由 “几乎 覆盖 对 象 
DBMS 业 所 有 成 员 公 司 ” 的 代表 所 组 成 的 社团 。 提 案由 对 象 模型 、 对 象 定义 语言 (ODL) 、 对 象 
交换 格式 (OIF) 、 对 象 查询 语言 (OQL) 以 及 这 些 内 容 与 C++ 、Smalltalk 和 Java 之 间 的 绑 定 
构成 〈 提 案 中 并 没有 关于 “对 象 处 理 语言 ”的 内 容 ; 相反 ， 对 象 处 理 能 力 由 ODMG 所 绑 定 的 语 
言 提 供 ) 。 

对 于 2.0 版 本 的 ODMG 对 象 模 型 (其实 和 3. 0 版 本 没有 太 大 区 别 ) 的 分 析 和 评价 可 以 参考 
文献 [3.3] 中 的 附录 I， 也 可 以 在 文献 [25. 28] 中 找到 。 

R. G. G. Cattell and J. Skeen: “ Object Operations Benchmark,” ACM TODS 17,No. 1 (March 1992). 
George Copeland and David Maier:“ Making Smalltalk a Database System ,” Proc. 1984 ACM SIGMOD 
Int. Conf. on Management of Data, Boston, Mass. (June 1984 ) . Republished in Michael Stonebraker 
(ed ) ,Readings in Database Systems (2d ed. ). San Mateo ,Calif. :Morgan Kaufmann (1994). 

文中 描述 了 为 创建 GemStone 的 OPAL 对 Smalltalk [25. 23] 所 做 的 一 些 改进 。 

O. J. Dahl,B. Myhrhaug ,and K. Nygaard: The SIMULA 67 Common Base Language ,Pub. S22,Norwe- 
gian Computing Center, Oslo, Norway (1970). 

SIMULA 67 是 为 进行 模拟 方法 应 用 而 设计 的 语言 ， 而 对 象 编程 语言 即 来 自 于 这 种 语言 。 事 
实 上 ，SIMULA 67 可 以 说 是 第 一 个 对 象 语言 。 

C.J. Date: “An Optimization Problem,” in C.J Date and Hugh Darwen, Relational Database Writings 
1989-1991. Reading, Mass. :Addison-Wesley (1992). 

C.J. Date:“ Why the ‘ Object Model’ Is Not a Data Model,” in C.J Date, Hugh Darwen, and David 
McGoveran, Relational Database Writings 1994-1997. Reading ,Mass. : Addison-Wesley (1998 ) . 

文中 主张 无 论 “ 对 象 模 型 ”由 什么 构成 ， 与 关系 模型 比较 起 来 它 就 像 合成 金属 -- 样 缺乏 抽 
象 ， 因 而 也 缺少 数据 独立 性 ; 实际 上 ， 它 更 像 存储 模型 ， 而 不 是 数据 模型 。 

C. 4. Date:”“ Object Identifiers vs. Relational Keys,” in C. J. Date, Hugh Darwen ,and David McGoveran, 
Relational Database Writings 1994-1997. Reading, Mass. :Addison-Wesley (1998). 

文中 主张 正 像 用 户 所 看 到 的 OIDs 在 数据 模型 中 没有 地 位 。 注 意 : 支持 这 个 说 法 的 一 个 重要 
的 论点 在 这 篇 文章 中 没有 提 到 ， 但 却 是 应 该 接受 的 论点 ， 在 第 26 章 26. 6 节 中 会 提 到 。 

C.J. Date:“ Encapsulation ls a Red Herring,” DBP& D 12,No.9 (September 1998). 

在 本 章 中 我 们 曾 说 过 封装 意味 着 独立 性 。 然 而 ， 我 们 同时 也 指出 ， 最 好 不 使 用 术语 “封装 ” 
(而 使 用 “标量 ” ) 。 部 分 原因 在 于 “封装 对 象 ”并 不 比 没有 封装 的 关系 提供 更 多 的 数据 独立 性 
(至 少 从 原理 上 来 讲 是 这 样 ) 。 例 如 ， 在 基 表 中 用 笛 卡 尔 坐标 (X，Y) 表示 的 点 ,在 物理 上 完全 
可 以 采用 极 坐 标 中 R 和 9 来 存储 。 

C.J. Date: “Persistence Nor Orthogonal to Type,” htip://www. dbpd. com (October 1998 ) . 文中 强烈 
反对 权威 说 法 “持久 性 与 类 型 是 无 关 的 "[25.2] ,并 且 支 持 “ 信 息 原理 ”的 观点 。 

C.J. Date: “Decent Exposure,” htip://www. dbpd. com (November 1998 ) . 

O. Deux ef al. “The O2 System,” CACM 34 ,No. 10 ( October 1991 ) . 

Fabrizio Ferrandina ,Thorsten Meyer ,Roberto Zicari ,Guy Ferran ,and Joélle Malec: ”Schema and Data- 
base Evolution in the O2 Object Database System ,” Proc. 21st InL Conf on Very Large Data Bases ,Zuar- 
ich ,Switzerland (September 1995 ) . 

见 参 考 文献 [25. 34] 中 的 评述 。 

Adele Goldberg and David Robson: Smalltalk-80: The Language and lts Implementation. Reading, Mass. : 
Addison-Wesley (1983). 

书 中 对 “Xerox Palo Alto 研究 中 心 ” 在 设计 和 构建 Smalltalk-80 系统 方面 所 做 的 早期 努力 给 
出 了 权威 性 的 评述 。 书 中 的 第 一 部 分 对 Smalltalk-80 编程 语言 做 了 一 个 详细 的 描述 ， 这 些 正 是 
GemStone 的 OPAL 语言 的 基础 。 

Nathan Goodman :“ Object-Oriented Database Systems,” InfoDB 4,No. 3 (Fall 1989 ) . 
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引用 这 篇 论文 中 的 一 段 话 :“ 在 现 阶段 将 对 象 系统 和 关系 系统 进行 比较 是 徒劳 无 益 的 。 我 们 
要 比较 的 应 该 是 对 等 的 东西 ， 如 苹果 与 苹果 的 比较 、 梦 想 与 梦想 的 比较 、 理 论 与 理论 的 比较 、 
成 熟 产 品 与 成 熟 产品 的 比较 …… 关 系 方法 已 经 存在 了 很 长 时 间 : 它 有 着 牢固 的 理论 基础 并 作为 
大 量 成 熟 产品 的 基础 。 相 反 ， 对 象 方法 是 较 新 的 方法 (至少 在 数据 库 领域 ) ， 它 并 没有 像 关 系 模 
型 一 样 完善 的 理论 基础 ， 也 没有 可 称 为 是 成 熟 的 产品 。 所 以 ， 在 真正 思考 对 象 技术 是 否 能 代替 
关系 技术 之 前 还 有 很 多 事 需要 做 。 

这 段 话 中 的 一 些 论点 现在 看 来 仍然 是 适合 的 。 由 于 自 1989 年 以 来 许多 问题 更 趋 于 具体 化 ， 
所 以 在 一 些 方面 关系 和 对 象 的 比较 已 可 以 被 认为 是 苹果 和 橘子 的 比较 了 。 在 第 26 章 中 将 看 到 这 
一 点 。 

Nathan Goodman: “An Object-Oriented DBMS War Story :Developing a Genome Mapping Database in 
C++ ， 见 参考 文献 [25. 29 ] . 

这 篇 论文 中 支持 了 本 章 所 提出 的 一 些 批评 意见 。 摘 要 如 下 :“ 与 传统 思想 相反 ， 我 们 的 经 验 
告诉 我 们 ， 在 数据 库 对 象 内 部 通过 实现 复杂 程序 的 方法 来 扩充 数据 库 是 一 个 错误 。 经 验 同时 告 
诉 我 们 ， 用 C++ 来 实现 数据 库 是 不 合适 的 ， 产 生 的 问题 包括 : 缺乏 定义 属性 机 制 ， 缺 乏 系统 引 
用 对 象 机 制 ， 没 有 垃圾 收集 器 ， 继 承 模型 中 存在 细微 的 陷阱 。 我 们 还 发 现 ， 目 前 基于 C++ 开发 
的 DBMS 缺乏 重要 的 功能 。 为 了 弥补 这 一 点 ， 我 们 致力 于 提出 我 们 自己 的 标准 DBMS 功能 的 简 
单 实现 方式 : 事务 日 志 、 多 线程 事务 监视 、 查 询 语言 和 查询 处 理 器 、 存 储 结构 。 事 实 上 ， 我 们 
将 C++ 实 现 的 DBMS 作为 面向 对 象 的 存储 管理 者 ， 而 在 它 的 上 层 再 构建 一 个 数据 管理 系统 来 管 
理 大 规模 的 基因 组 映射 。 

H. V. Jagadish and Xiaolei Qian:“ Integrity Maintenance in an Object-Oriented Database,” Proc. 18th 
Int Conf on Very Large Data Bases, Vancouver,Canada ( August 1992 ) . 

提出 了 一 种 对 象 系统 的 声明 完整 性 机 制 ， 并 论述 了 完整 性 约 东 编译 器 如 何 将 必要 的 完整 性 
检查 代码 合并 到 相关 对 象 类 的 方法 中 。 

Michael Kifer, Won Kim, and Yehoshua Sagiv:“Querying Object-Oriented Databases. ” Proc. 1982 
ACM SIGMOD Int Conf on Management of Data ,San Diego ,Calif ( June 1992 ) . 
提出 了 另 一 种 “对 象 SQL”， 称 为 XSQL 。 
Won Kim:”“ Observations on the ODMG-93 Proposal for an Object-Oriented Database Language,” ACM 
SIGMOD Record 23,No. 1 (March 1994). 
Won Kim (ed. ): Modern Database Systems: The Object Model, Interoperability, and Beyond. New 
York. N. Y. :ACM Pres Reading ,Mass. :Addison-Wesley (1995 ) . 
Won Kim and Frederick H. Lochovsky: Object- Oriented Concepts, Databases ,and Applications. Reading ， 
Mass. :ACM Press/ Addison-Wesley (1989 ) . 
Mary E. S. Loomis: Object Databases: The Essentials. Reading, Mass. ; Addison-Wesley (1995 ) . 
Peter Lyngbaek et al. ;: “OSQL A Language for Object Databases, “ Technical Report HPLDTD-91- 
4, Hewlett-Packard Company (January 15, 1991). 

见 参 考 文献 [25.6] 中 的 评述 。 

Bertrand Meyer:“ The Future of Object Technology,” IEEE Computer 31 ,No. 1 (January 1998). 

文中 称 :“ 对 象 数据 库 的 未 来 是 一 个 值得 探讨 的 主题 …… 从 1986 年 开始 关系 数据 库 厂商 设 
法 通过 抢先 通告 的 方式 抑制 了 对 象 数据 库 的 进一步 发 展 …… 十 年 以 后 ， 可 能 对 象 数据 库 方面 的 
专家 仍 会 告诉 你 主要 关系 数据 库 厂商 提供 的 产品 与 现实 事物 仍然 相差 很 远 …… 对 象 数 据 库 市 场 
份额 将 继续 增长 ， 但 只 占 一 部 分 。” 

John F. Roddick:“ Schema Evolution in Database Systems-An Annotated Bibliography,” ACM SIGMOD 
Record 21 ,No. 4 (December 1992 ) . 

传统 数据 库 产品 一 般 对 一 个 已 存在 的 模式 只 提供 简单 的 改动 (例如 ， 在 一 个 已 存在 的 基 表 
中 加 入 某 个 新 的 属性 ) 。 但 是 ， 某 些 应 用 往往 需要 更 复杂 的 模式 变化 支持 ， 而 一 些 对 象 原型 系统 
在 这 一 问题 上 进行 了 深入 的 分 析 。 注 意 : 这 一 问题 在 对 象 环 境 下 更 为 复杂 ， 因 为 这 时 相关 的 模 
式 变 得 更 为 复杂 。 

下 列 可 能 的 模式 变化 的 分 类 来 自 于 关于 对 象 原型 系统 ORION [25.4] 的 一 篇 论文 。 我 们 认 
为 其 中 的 一 些 内 容 违 背 了 模型 与 实现 相 区 分 的 原则 。 

和 对 象 类 的 改变 
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[25. 35 ] 


[25. 36] 


[25. 37] 


[25. 38 ] 


之 六 序 分 对 象 、 尖 未 和 和 XML 


1) 实例 变量 的 改变 
。 增加 实例 变量 
。 删除 实例 变量 
。 重 命名 实例 变量 
。 改变 实例 变量 的 缺 省 值 
。 改变 实例 变量 的 数据 类 型 
。 改变 实例 变量 的 继承 源 
2) 方法 的 改变 
。 增加 方法 
。 删除 方法 
。 重 命名 方法 
。 改变 方法 的 内 部 代码 
。 改变 方法 的 继承 源 
@ 类 层次 的 改变 (假设 为 多 继承 的 情况 ) 
。 在 8 类 的 超 类 集合 中 加 入 4 类 
。 从 8 类 的 超 类 集合 中 删除 A 类 
整个 模式 的 改变 
。 增加 类 
。 删除 类 
。 重 命名 类 
。 划分 类 
。 合并 类 
由 于 系统 不 支持 视图 ， 所 以 我 们 并 不 清楚 土 述 改变 的 透明 度 如 何 。 事 实 上 ， 对 于 对 象 系统 
来 说 ， 因 为 其 本 质 上 的 3GL 特性 使 “模式 进化 ”的 可 能 性 很 成 问题 。 如 参考 文献 【25.28] 中 
所 述 :“ 如 果 …… 索 引 数 量 改 变 或 将 数据 重组 成 不 同 的 聚集 方式 ， 作 为 方法 不 能 自动 利用 这 种 改 
变 所 带 来 的 好 处 ”。 
进一步 说 ， 模 式 进化 在 对 象 系统 中 也 更 为 需要 ， 因 为 在 对 象 系统 中 模式 设计 时 的 许多 决定 
是 由 应 用 开发 的 程序 员 来 决定 的 ， 而 在 关系 系统 中 这 些 都 是 由 DBA 甚至 是 DBMS 本 身 来 决定 的 
(参见 文献 [25. 35] ) 。 特 别 地 ， 人 性 能 调 优 时 就 需要 重 设计 原 有 的 模式 (参见 文献 [25.35] ) 。 
C. M. Saracco“ Writing an Object DBMS Application” (in two parts) ,InfoDB 7,No.4 (Winter 1993/ 
94 ) and InfoDB 8,No.1 (Spring 1994). 
文中 给 出 了 一 些 简单 但 完整 的 编码 例子 。 
Gail M. Shaw and Stanley B. Zdonik: “A Query Algebra for Object-Oriented Databases,” Proc. 6th IEEE 
Int. Conf. on Data Engineering (February 1990). 
这 篇 论文 支持 了 笔者 本 人 的 观点 ， 即 “对 象 代数 ”内 在 是 复杂 的 〈 因 为 对 象 本 身 就 是 复杂 
的 )。 具 体 来 说 ,任意 岩 套 层次 对 象 的 等 值 比较 往往 需要 非常 仔细 的 考虑 。 在 此 文 的 观点 背后 所 
包含 的 基本 思想 是 : 每 个 查询 操作 产生 一 个 关系 ， 而 关系 中 每 条 元 组 包含 某 些 数据 库 对 象 的 
OID; 这 样 ， 在 连接 操作 的 情况 下 ， 由 于 元 组 并 不 从 成 员 对 象 中 继承 任何 方法 ， 所 以 真正 比较 的 
只 能 是 元 组 中 OID 所 指向 的 对 象 本 身 。 
David W. Shipman:“The Functional Data Modei and the Data Language DAPLEX,” ACM TODS 6， 
No. 1 (March 1981 ) . Republished in Michael Stonebraker (ed. ) , Readings in Database Systms (2d 
ed. ). San Mateo ,Calif. :Morgan Kaufmann (1994 ) . 
近年 来 ， 有 一 些 试 图 将 系统 构建 在 函数 而 非 关 系 上 的 尝试 ， 而 DAPLEX 系统 是 其 中 最 知名 
的 一 个 。 我 们 之 所 以 在 这 里 提 到 这 一 系统 ， 是 因为 函数 化 的 方法 与 对 象 的 方法 在 某 些 思想 上 有 
类 似 之 处 ， 包 括 导航 式 ( 即 路 径 跟 踪 ) 地 获得 函数 中 与 其 他 对 象 相 联 系 对 象 的 地 址 。 注 意 ; 这 
里 所 指 的 函数 并 不 是 数学 意义 上 的 函数 ， 而 可 能 返回 多 个 值 。 事 实 上 ， 函 数 上 的 许多 概念 都 必 
须 打 破 ， 以 适应 “函数 数据 模型 ”中 所 需要 具备 的 各 项 功能 。 
Jacob Stein and David Maier: “Concepts in Object-Oriented Data Management,” DBP&D 1, No.4 
( April 1988 ) . 
本 文 是 关于 对 象 概念 的 不 错 的 早期 教程 ， 两 位 作者 是 GemStone 的 设计 者 。 
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D. C. Tsichritzis and O. M. Nierstrasz:“ Directions in OO Research， 见 参考 文献 【25. 30 }. 

这 篇 论文 进一步 支持 了 笔者 关于 对 象 数据 库 技术 还 有 很 长 的 路 要 走 的 观点 ， 文 中 谈 到 :“ 在 

基本 的 定义 上 还 存在 分 歧 ; 例如 ， 对 象 是 什么 ? …… 认为 在 科学 探索 的 动态 时 期 一 些 松散 的 定 
义 是 不 可 避免 甚至 是 受 欢 迎 的 观点 显然 是 毫 无 根据 的 。 在 这 一 时 期 所 得 出 的 各 项 定义 点 该 更 为 
严格 才 对 ”。 然 而 对 象 系统 的 概念 已 经 存在 了 将 近 40 年 ! 一 一 事实 上 这 些 概念 的 提出 比 关系 模 
型 的 提出 还 早 。 
Jeffrey D. Ullman:" A Comparison Between Deductive and Object-Oriented Database Systems.” Proc. 2nd 
Int. Conf. on Deductive and Object-Oriented Databases, Munich, Germany ( December 1991 ); 
C. Delobel. M. Kifer, and Y. Masunaga (eds. ), Lecture Notes in Computer Science 566. New York, 
N. Y. :Springer-Verlag (1992). 

虽然 对 于 这 篇 论文 的 一 些 细节 观点 我 们 并 不 同意 ,但 对 于 其 整体 结论 我 们 是 非常 金 间 的 ; 
即 “演绎 ”( 即 基于 逻辑 的 ) 数据 库 系统 从 长 期 来 讲 比 对 象 系 统 更 精确 。 同 时 ， 这 篇 论文 对 于 优 
化 也 提出 了 一 个 重要 观点 : 

假设 我 们 定义 “存在 一 个 类 似 二 进 制 关系 的 对 象 类 ， 类 中 有 一 个 实现 连接 操作 的 方法 ， 这 
样 我 们 就 可 以 写 出 类 似 R JOIN S JOIN TT 之 类 的 表达 式 。 似 乎 我 们 可 以 通过 (R JOIN S) JOINT 
或 RJOIN (S JOIN T) 的 顺序 来 计算 其 结果 ， 但 事实 是 这 样 吗 ? 我 们 并 不 知道 JOIN 方法 的 具体 
内 容 ， 要 是 它 相互 关联 怎么 办 ? …… 结论 是 ， 如 果 在 关系 或 关系 以 上 的 层次 上 通过 对 象 的 方式 
来 编写 应 用 ， 那 么 必须 在 关系 代数 中 加 入 相关 的 信息 。 系 统 本 身 是 无 法 演绎 这 些 信息 的 ， 只 有 
通过 后 绪 的 构建 。 这 样 ， 在 查询 语言 中 唯一 能 够 优化 的 只 有 那些 内 置 的 方法 ， 因 为 只 有 这 些 方 
法 的 语义 才 已 经 为 系统 所 知 。” 

Carlo Zaniolo: “The Database Language GEM ,” Proc. 1983 ACM SIGMOD Int. Conf. on Management 
of Data ,San Jose,Calif. (May 1983 ) . Republished ip Michael Stonebraker (ed. ), Readings in Data- 
base Systems (2d ed. ). San Mateo ,Calif :Morgan Kaufmann (1994). 

GEM 即 为 “通用 实体 处 理 器 ” (General Entity Manipulator) 。 它 是 对 支持 关系 中 包含 集合 属 
性 和 可 选择 属性 〈 例 如 ， 拥 有 优先 权 的 EMP 有 SALARY 属性 ， 而 无 优先 权 的 EMP 有 HOURLY 
_WAGE 和 OVERTIME 属性 ) 的 QUEL 系统 的 有 效 扩充 。 它 也 利用 了 对 象 在 概念 上 可 以 包含 其 
他 对 和 象 的 思想 (而 不 是 通过 外 码 来 引用 其 他 对 象 )。 同 时 ， 它 还 通过 扩充 我 们 所 熟悉 的 圆 点 限定 
的 方法 为 属性 中 对 象 的 引用 提供 了 一 种 简单 的 方式 一 一 实际 上 是 通过 隐 式 地 遍历 某 些 预 定义 的 
连接 路 径 。 例 如 ， 我 们 可 以 通过 限定 名 EMP. DEPT. BUDGET 的 形式 来 引用 给 定 雇员 所 在 部 门 的 
预算 。 许 多 系统 采用 了 这 一 思想 或 在 这 一 思想 的 基础 上 进行 了 扩充 。 

Stanley B. Zdonik and David Maier (eds. ) : Readings in Object-Oriented Database Systems. San Fran- 
cisco ,Calif :Morgan Kaufmann(1990). 。 








第 26 章 ” 对 象 /关系 数据 库 


26.1 引言 


在 20 世纪 90 年 代 末 ， 一 些 厂 商 已 经 发 布 了 了“ 对象/ 关系 ”DBMS 产品 〈 在 市 场 上 被 称 为 是 
通用 服务 器 ) 。 例 如 DB2 的 通用 数据 库 版 ，Informix 动态 服务 器 的 通用 数据 选 件 以 及 Oracle 通用 
服务 器 〈 也 用 过 其 他 名 字 ) 。 在 这 些 产品 中 主要 的 思想 是 产品 能 够 同时 支持 对 象 和 关系 的 性 能 ; 
换 句 话说， 这些 产品 试图 将 这 两 种 技术 结合 起 来 。 

作者 认为 这 种 结合 应 该 把 关系 模型 作为 坚实 的 基础 〈 上 毕竟 如 本 书 第 二 部 分 中 所 谈 到 的 ， 关 
系 模 型 是 现代 大 多 数 数 据 库 技术 的 基础 ) 。 所 以 ， 我 们 希望 的 是 能 够 在 关系 系统 中 融 人 对象 系统 
的 特性 ” 至 少 是 好 的 特性 〈 我 们 当然 不 希望 完全 放弃 整个 关系 系统 ， 也 不 希望 将 这 两 种 系 
统 分 开 处 理 ) 。 其 他 许多 作者 也 支持 这 一 观点 ， 包 括 《 第 三 代数 据 库 系统 宣言 》 [26.44] 的 作 
者 ; 他 们 认为 第 三 代 DBMS 必须 包容 第 二 代 DBMS。( 在 这 里 第 一 代 DBMS 是 指 关系 以 前 的 数据 
库 系统 ， 如 IMS; 第 二 代 DBMS 是 指 SQL 系统 ， 而 第 三 代 DBMS 是 指 未 来 的 系统 。) 然而 ， 某 
些 对 象 系统 的 作者 并 不 支持 这 一 观点 。 这 里 引用 一 段 较为 代表 性 的 话 [26. 7]: 

在 计算 机 科学 中 已 经 产生 了 许多 代数 据 管理 方式 ， 从 开始 的 索引 文件 到 后 来 的 网 状 和 层次 
DBMS……， 再 到 最 近 的 关系 DBMS……。 目 前 我 们 正 处 在 新 一 代数 据 库 系统 的 开始 点 …… ， 这 
种 系统 提供 对 象 管理 并 支持 更 复杂 的 数据 。 

在 这 里 作者 明确 地 指出 ， 就 像 关系 系统 代替 更 早 的 层次 和 网 状 系统 那样 ， 对 象 系统 也 将 代替 
关系 系统 。 

我 们 不 同意 这 一 观点 的 理由 在 于 与 更 早 的 系统 模型 相 比 ， 关 系 系 统 是 完全 不 同 的 【26. 17 ] ， 
它 并 不 针对 特定 的 环境 ; 而 老 的 层次 和 网 状 系统 却 是 基于 特定 环境 的 ， 它 们 也 许 能 解决 那个 时 期 
某 些 重要 的 问题 ， 但 却 不 具备 牢固 的 理论 基础 。 然 而 不 幸 的 是 ， 早 期 关系 系统 的 支持 者 们 ( 包 
括 作 者 本 人 在 内 ) 对 关系 和 关系 以 前 的 系统 的 优 缺 点 的 比较 存在 着 很 大 的 分 歧 ; 这 些 争 论 在 当 
时 是 必要 的 ， 但 是 实际 上 却 起 了 不 和 良 的 后 果 ， 使 人 党 得 关系 和 关系 以 前 的 DBMS 在 本 质 上 是 同 
一 事物 。 这 一 错误 的 思想 支持 了 以 上 引文 中 的 观点 一 一 关系 系统 到 对 象 系统 与 层次 和 网 状 系统 到 
关系 系统 相 类 似 。 

对 象 系统 到 底 是 什么 ?它们 是 基于 特定 环境 的 吗 ? 《面向 对 象 数据 库 系统 宣言 》 [20. 2， 
25. 1] 中 对 此 做 了 很 好 的 说 明 : “关于 系统 的 详细 规范 ， 我 们 采用 一 种 达尔 文 方式 : 我 们 希望 通 
过 构建 一 系列 实验 原型 ， 自 然而 然 生成 适当 的 对 象 模型 。 换 句 话 说， 作者 认为 我 们 不 需要 预定 
义 模型 ， 而 是 应 该 先 编写 代码 并 构建 系统 来 看 看 结果 到 底 如 何 ! 

在 下 文中 ,我 们 将 始终 贯彻 我 们 的 观点 (事实 上 ， 大 多 数 主要 DBMS 卖家 都 是 这 人 么 做 ) ， 即 
通过 在 关系 系统 中 加 和 对象 技术 的 优秀 特性 来 增强 其 性 能 。 再 次 声明 ， 毕 竟 关 系 技术 已 经 研究 了 
近 35 年 ， 我 们 绝 不 希望 完全 放弃 这 一 技术 。 . 

在 第 25 章 中 我 们 已 经 论证 一 一 参见 [26. 31] 中 的 相关 叙述 一 一 面向 对 象 只 包含 一 种 好 的 
思想 ， 那 就 是 适当 的 数据 类 型 支持 (或 者 说 是 两 种 好 的 思想 ， 如 果 将 类 型 继承 单独 算 的 话 ) 。 所 
以 我 们 遇 到 的 问题 是 : 如何 将 适当 数据 类 型 支持 这 一 特性 融入 到 关系 模型 中 ? 当然 ,答案 很 简 
单 ， 这 种 支持 已 经 以 域 的 形式 存在 了 (我们 仍 倾向 于 将 其 称 为 类 型 ) 。 换 句 话 说， 为 了 加 入 对 象 
功能 我 们 并 不 需要 在 关系 模型 中 增加 任何 东西 ， 除 了 将 其 完整 地 实现 ; 而 现在 大 多 数 SQL 系统 








@@ 注意 : 我 们 感 兴趣 的 是 演变 ， 而 不 是 革命 性 的 变化 。 相 反 地 ， 考 虑 [25.11] 中 的 一 段 引 用 : “[ 对象 DBMS ] 
是 -- 种 革命 性 的 发 展 而 不 是 演变 " 。 我 们 认为 市 场 还 没有 对 革命 性 的 变化 做 好 准备 ， 也 认为 不 需要 也 不 应 该 进行 
革命 性 的 变化 一 一 这 就 是 为 什么 第 三 次 宣言 [3.3] 非常 明确 指出 要 演变 ， 而 不 要 革命 性 的 变化 的 个 原因 、 
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在 实现 上 都 不 是 很 成 功 。 

所 以 ， 我 们 认为 一 个 真正 支持 域 的 关系 系统 应 该 能 够 处 理 所 有 那些 所 谓 的 对 象 系统 才能 够 处 
理 而 关系 系统 处 理 不 了 的 数据 类 型 ， 多 媒体 数据 、 时 间 序 列 数据 、 生 物 数据 、 金 融 数据 、 工 程 设 
计数 据 、 办 公 自 动 化 数据 ， 等 等 。 同 时 ， 我 们 还 认为 一 个 真正 的 “对 象 /关系 ”系统 首先 应 该 是 
一 个 关系 系统 一 一 也 就 是 说 ， 支 持 关 系 模型 及 其 相关 的 所 有 内 容 。 应 该 鼓励 DBMS 厂商 去 开发 
那些 他 们 正 努 力 在 开发 的 东西 ， 即 在 他 们 的 系统 中 包含 对 类 型 和 域 的 适当 支持 。 事 实 上 ， 可 以 论 
证 对 象 系统 之 所 以 吸引 人 的 主要 原因 就 在 于 SQL 厂商 没 能 充分 支持 关系 模型 ;因此 这 绝 不 能 作 
为 放弃 关系 系统 的 原因 ! 

现在 让 我 们 来 完成 第 25 章 中 尚未 完成 的 例子 ， 看 看 对 于 矩形 问题 如 何 提出 一 个 很 好 的 关系 
解决 方案 。( 我 们 已 经 在 Tutorial D 中 给 出 了 解决 方案 ; 产生 SQL 语句 留 作 练习 ) 对 此 问题 的 解 
决 首 先 需 要 定义 一 个 矩形 类 型 RECT: 


TYPE RECTANGLE POSSREP ( X1 RATIONRL，Y1 RATIONAL, 
X2 RATIONAL, Y2 RATIONAL ) ...}; 


我 们 假设 矩形 在 物理 上 通过 某 种 能 有 效 支持 空间 数据 的 方式 存储 一 一 如 四 了 叉 树 (quadtree ) 
或 R 树 等 [26.37]。 
我 们 同时 定义 一 个 用 来 测试 两 个 给 定 矩 形 是 否 重 委 的 操作 符 : 


OPERATOR OVERLAP ( R1 RECTANGLE, R2 RECTANGLE ) 
RETURNS BOOLEAN ; 
( R1 ) < THE x2 ( R2 ) AND 
( < THE Y2 ( R2 ) AND 
THE XxX2 ( R1 ) > THE Xl1 ( R2 ) AND 
THE Y2 ( > THE Yl ( R2 ) }; 
END OPERATOR ; 


此 操作 符 在 实现 上 采用 了 重 谷 测试 的 有 效 方式 ( 详 见 第 25 章 中 的 相关 叙述 ) ， 同 时 采用 了 
有 效 的 存储 结构 (R 树 或 其 他 等 ) 。 
现在 用 户 可 以 来 创建 一 个 基 表 ， 表 中 包含 某 个 以 RECT ANGLE 作为 类 型 的 属性 : 


1 


RETURN ( THE Xl 
TH 


| 
< 


VAR RECTANGLES BASE RELATION { R RECTANGLE, ... } KEY {R}; 
这 样 ， 对 于 查询 “得 到 所 有 与 单位 正方 形 相 重 炙 的 矩形 ”来 说 就 很 简单 了 : 
RECTANGLES 


WHERE OVERLAP ( R, RECTANGLE ( 0.0, 0.0, 1.0, 1.0 ) ) 


这 一 解决 方案 克服 了 第 25 章 中 讨论 的 所 有 缺陷 。 

目前 ， 上 述 的 观点 在 概念 上 是 相当 简单 明了 的 一 一 再 重复 一 下 ， 所 有 我 们 所 必须 做 的 事 是 实 
现 关 系 模型 ， 特 别 是 让 用 户 定义 他 们 自己 的 类 型 一 一 可 是 〈 再 一 次 ) 混乱 占 优势 …… 事 实 上 ， 
我 们 认为 在 现 有 的 商用 数据 库 产 品 中 至 少 存在 两 个 大 的 错误 (就 是 我 们 之 前 提 及 的 两 个 大 的 错 
误 ”) 。 明 显 地 ， 我 们 需要 讨论 那些 错误 并 且 要 特别 说 明 为 什么 我 们 认为 它们 是 错误 的 ; 因此 ， 
本 章 的 其 余部 分 组 织 如 下 : 26. 2 节 和 26. 3 节 分 别 讨论 两 个 根本 性 错误 〈 至 少 其 中 一 个 错误 出 现 
在 市 场 上 几乎 每 一 个 对 象 /关系 产品 中 ) 。26. 4 节 考 虑 了 对 象 / 关 系 系 统 某 些 实现 上 的 问题 ，26. 5 
节 描 述 了 一 个 真正 对 象 /关系 系统 所 具有 的 好 处 〈 也 就 是 说 ， 绝 不 会 犯 那 两 个 根本 性 错误 ) 。 最 后 ， 








他 ”尤其 是 ， 现 在 的 系统 引起 了 很 普遍 的 误解 ， 即 : 关系 系统 只 支持 有 限 的 简单 类 型 。 下 面 的 引用 很 典型 :“ 关 系 系 
统 支持 很 少 的 固定 的 数据 类 型 集 (例如 : 整 型 、 日 期 型 、 字 符 串 型 )” [26. 34] ; “关系 DBMS 只 能 支持 …… 它 
的 内 置 类 型 (基本 的 数字 型 、 字 符 串 型 、 日 期 型 、 时 间 型 )”[ 25. 31] ; “对象 / 关 系数 据 模型 通过 提供 更 丰富 的 
类 型 系统 扩展 了 关系 数据 模型 ”[ 16. 21] ; 等 等 。 

@@” 某 评论 家 反对 在 这 里 使 用 大 错 (blunder) 这 个 词 ， 这 一 反对 是 正确 的 ， 因 为 它 不 是 课本 中 可 以 找到 的 -… 个 普通 
的 术语 。 我 们 承认 我 们 选择 它 部 分 理由 是 由 于 它 的 震撼 价值 。 但 是 如 果 一 些 系统 X 本 应 该 是 关系 模型 的 一 个 运 
用 ,但 是 后 来 一 一 在 关系 模型 被 首次 定义 的 25 年 后 一 -有 人 加 上 了 一 个 “特性 ”到 系统 X， 使 它 完全 违反 了 那 
个 模型 的 规则 ， 所 以 可 见 我 们 把 引入 那个 “特性 ” 称 为 是 一 个 大 错 是 十 分 合理 的 。 
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26. 6 节 描 述 了 相关 的 SQL 支持 工具 ，26. 7 节 给 出 本 章 的 小 结 。 
26.2 第 一 个 根本 性 错误 


首先 引用 参考 文献 [3.3] 中 的 一 段 话 : 

在 具体 考虑 如 何 将 对 象 和 关系 结合 的 问题 之 前 ， 首 先 需要 解决 一 个 关键 性 的 问题 ， 即 : 

对 象 世 界 中 的 概念 “对 象 类 ”在 关系 世界 中 对 等 的 概念 到 底 是 什么 ? 

这 个 问题 之 所 以 非常 重要 ， 其 原因 就 在 于 对 象 类 是 对 象 世 界 中 所 有 概念 的 基础 一 一 所 有 其 他 
的 对 象 概念 或 多 或 少 都 依赖 于 它 。 对 于 这 个 问题 通常 有 两 个 等 式 作 为 其 答案 的 候选 ; 

血 域 = 对 象 类 

四 关系 变量 = 对 象 类 

我 们 现在 来 和 证明， 第 一 个 等 式 是 正确 的 ， 而 第 二 个 是 错误 的 。 

事实 上 ， 有 既然 对 象 类 和 域 实 质 上 都 是 类 型 ， 那 么 第 一 个 等 式 显 然 是 正确 的 ， 给 定 关系 变量 是 
变量 ， 类 是 类 型 ， 则 第 二 个 等 式 显然 是 错误 的 〈 变 量 和 类 型 绝 非 同 一 事物 ) 。 正 是 基于 这 一 原 
因 ， 在 《第 三 次 宣言 》[3.3] 中 坚持 认为 关系 变量 不 是 域 。 然 而 ， 许 多 人 和 一 些 产品 却 在 事实 
上 支持 了 第 二 个 等 式 我 们 认为 这 是 根本 性 错误 〈 或 如 我 们 前 面 所 说 的 ， 第 一 个 根本 性 铺 
误 ) 。 仔 细 讨 论 这 一 问题 是 非常 必要 的 。 注 意 : 本 节 中 的 大 部 分 内 容 直 接 引 自 参考 文献 [3.3]。 

为 什么 会 有 人 犯 这 样 的 错误 呢 ?” 考 虑 下 列 简单 的 类 定义 。 其 中 的 对 象 语言 是 虚构 的 ， 并 且 我 
们 有 意 不 与 25. 3 节 中 的 表达 相 一 致 : 


CREATE OBJECT CLASS BMP 
( EMP# CHAR(5), 
ENAME CHAR(20), 
SAL | NUMERIC, 
HOBBY CHAR(20), 
WORKS_FOR CHAR(20) ) ...}; 


(这 里 的 EMP#、ENAME 等 都 是 公共 实例 变量 。 我 们 故意 将 它们 定义 为 简单 的 固定 类 型 而 不 
是 用 户 定义 类 型 ; 而 且 ， 为 了 简化 ， 这 一 章 中 的 所 有 例子 都 作 同 样 的 处 理 ) 。 现 在 来 考虑 一 下 
SQL 语句 对 “ 基 表 ”的 定义 : 


CREATE TABLE EMP 
( EMP# 





CHAR(5) NOT NULL, 


ENAME CHAR(20) NOT NULL, 
SAL NUMERIC NOT NULL, 
HOBBY CHAR(20) NOT NULL, 


WORKS FOR CHAR(20) NOT NULL ) . 


这 两 个 定义 看 起 来 的 确 很 类 似 ， 将 两 者 等 同 起 来 的 思想 也 的 确 很 诱 人 。 某 些 系 统 ， 包括 一 些 
商业 产品 ， 事 实 上 就 是 这 么 做 的 。 现 在 让 我 们 进一步 思考 这 一 问题 ,或 更 准确 地 说 ,在 以 上 
CREATE TABLE 声明 的 基础 上 再 增加 一 些 扩充 以 使 其 更 为 “对 象 化 " 。 注 意 : 以 下 的 讨论 基于 
某 一 特定 的 商用 产品 ;其实 就 是 基于 此 产品 文档 中 的 一 个 例子 。 我 们 并 不 想 指 出 这 个 产品 的 名 
称 ， 因 为 批评 或 表扬 某 一 产品 并 不 是 本 书 的 目的 。 我 们 所 提出 的 批评 针对 所 有 支持 等 式 “关系 
变量 = 对 象 类 ”的 系统 。 

第 一 个 扩充 为 : 允许 加 入 复合 〈 即 元 组 值 ) 属性 ; 也 就 是 说 ， 我 们 允许 属性 的 值 可 以 是 其 
他 表 中 的 元 组 〈 或 本 表 中 的 元 组 ) 。 例 如 ， 将 原先 的 CREATE TABLE 声明 替换 成 如 下 声明 的 集 
合 (参见 图 26-1): 





EMP 
EMP# |ENAME | SAL | HOBBY tuple |WORKS_ FOR tuple 


RE] LOCATION tuple | 
| | 





















图 26-1 属性 包含 元 组 (的 指针 ) 一 一 不 推荐 使 用 
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CREATE TABLE BMP 
EMP# CHAR(5) NOT NULL, 


ENAME CHAR{20) NOT NULL, 
SAL NUMERIC NOT NULL, 
HOBBY ACTIVITY NOT NULL, 


WORKS_FOR COMPANY NOT NULL ) };} 


CREATE TABLE ACTIVITY 
( NAME CHAR(20) NOT NUOLL， 
TEAM INTEGER NOT NULL ) ; 


CREATE TABLE COMPANY 
NAME CHAR(20) NOT NULL, 
LOCATION CITYSTATE NOT NULL ) } 


CREATE TABLE CITYSTATE 
( CITY HAR(20) NOT NULL, 


STATE CHAR( 2) NOT NULL ) ;} 

解释 : 表 EMP 中 的 属性 HOBBY 被 定义 为 ACTIVITY 类 型 ， 而 ACTIVITY 是 含有 两 个 属性 
NAME 和 TEAM 的 表 。 其 中 TEAM 给 出 NAME 所 指定 的 运动 类 型 中 每 队 运动 员 的 数目 ， 例如 ， 
一 个 元 组 可 能 为 (Soccer，11) 。 这 样 ， 每 个 HOBBY 值 实际 上 由 一 对 值 ，NAME 值 和 TEAM 值 
构成 ，( 确切 地 说 这 对 值 目前 以 关系 变量 ACTIVITY 中 的 元 组 值 形式 出 现 ) 。 注 意 : 我 们 已 经 触 
犯 了 《对 象 关系 数据 库 基 础 : 第 三 版 定 言 》 中 关系 变量 不 是 域 的 声明 属性 HOBBY 的 “ 域 ” 
被 定义 为 关系 变量 ACTIVITY。 在 本 节 中 还 将 讨论 这 一 问题 。 

类 似 地 ， 关 系 变量 EMP 中 的 属性 WORKS_FOR 声明 为 类 型 COMPANY ， 而 COMPANY 也 是 
一 个 包含 两 个 属性 的 关系 变量 ， 其 中 一 个 属性 的 类 型 为 CITYSTATE ， 而 CITYSTATE 又 是 一 个 
包含 两 个 属性 的 关系 变量 。 换 句 话 说， 关系 变量 ACTIVITY 、COMPANY 和 CITYSTATE 都 既 被 
认为 是 类 型 (或 域 ) ， 又 被 认为 是 关系 变量 。 当 然 ， 关 系 变量 EMP 本 身 也 是 如 此 。 

第 一 种 扩充 大 致 上 与 允许 对 象 包含 对 象 类 似 ， 从 而 支持 了 包含 层次 的 概念 〈( 见 第 25 章 ) 。 

我 们 将 第 一 种 扩充 的 特征 表述 为 “属性 包含 元 组 ”， 而 这 正 是 由 等 式 “ 关 系 变量 = 对 象 
类 ”本 身 所 带 来 的 特征 。 然 而 ， 更 精确 地 说 ， 这 一 特征 应 该 表述 为 “属性 包含 元 组 的 指 
针 ” 一 一 我 们 在 随后 将 分 析 这 一 问题 (所 以 在 图 26-1 中 我 们 应 该 将 三 个 “元 组 ”替换 成 
“元 组 的 指针 ”) 。 

第 二 个 扩充 为 : 允许 关系 值 属性 ; 也 就 是 说 ， 属 性 值 可 以 是 其 他 表 (或 就 是 同一 个 表 ) 中 
元 组 的 集合 。 例 如 ， 假 设 雇员 可 以 有 不 只 是 一 个 而 是 任意 个 爱好 (参见 图 26-2): 





AL |HOBBIES relation |WORKS FOR tuple 





[NAME | LOCATION tupie ] 
| | Cm] era] 


图 26-2 属性 包含 元 组 (指针 ) 的 集合 一 一 不 推荐 使 用 


CREATE TABLE EMP 
( EMP# CHAR(5) NOT NULL, 
ENAME CHAR(20) NOT NULL, 
SAL NUMER NOT NULL, 
HOBBIES SET or” ( ACTIVITY ) NOT NULL, 
WORKS_FOR COMPANY NOT NULL ) ; 


解释 : 现在 关系 变量 EMP 中 任意 元 组 的 HOBBY 值 可 以 是 空 值 或 多 个 (NAME，TEAM ) 
序列 对 ， 即 一 系列 关系 变量 ACTIVITY 中 的 元 组 。 第 二 种 扩充 大 致 与 允许 对 象 包含 “集合 ”对 
象 类 似 : 包含 层次 的 更 为 复杂 的 版 本 。 注 意 : 在 我 们 所 基于 的 特定 产品 中 ， 集 合 对 象 可 以 是 序 


列 、 无 序 单元 组 或 集合 本 身 。 
第 三 个 扩充 为 : 允许 关系 变量 有 相应 的 方法 即 ， 操 作 符 )。 例 如 : 


CREATE TABLE EMP 
{ EMP# CHAR(S5) NOT NULL, 
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ENRAME CHAR(20) NOT NULL, 
SAL NUMERIC NOT NULL, 
HOBBIES SET OF ( ACTIVITY ) NOT NULL, 
WORKS FOR COMPANY NOT NULL ) 
METHOD RETIREMENT BENEFITS { ) : NUMERIC ; 


解释 : 方法 RETIREMENT_BENEFITS 将 某 个 EMP 元 组 作为 参数 ， 并 产生 类 型 为 NUMERIC 
的 结果 值 。 
最 后 一 个 扩充 为 :允许 子 类 。 例 如 (参见 图 26-3): 


es 


a AppRESS| 


" 


图 26-3 将 关系 变量 作为 子 类 或 超 类 一 一 不 推荐 使 用 


CREATE TABLE PERSON 
( SS# CHAR(9) NOT NULL, 


















EMP 








HOBBIES WORKS_FOR tuple 


[saxe | Tea | 的 二 


[cITY | err [sas] | 











BIRTHDATE DATE NOT NULL, 
ADDRESS CHAR(50) NOT NULL )} }; 
CREATE TABLE EMP 
AS SUBCLASS OF PERSON 
( EMP# CHAR(5) NOT NULL, 


ENAME CHAR( 20) NOT NULL, 
S NUMERIC NOT NULL, 
HOBBIES SET OF ( ACTIVITY ) NOT NULL, 


WORKS_ FOR COMPANY NOT NULL ) 
METHOD RETIREMENT BENEFITS ( ) : NUMERIC ; 


解释 : 现在 关系 变量 EMP 有 三 个 从 关系 变量 PERSON 中 继承 的 附加 属性 (SS#、BIRTH- 
DATE 和 ADDRESS) (因为 每 个 EMP 实例 同样 也 是 一 个 PERSON 的 实例 ? ) 。 如 果 关 系 变量 
PERSON 有 方法 ， 也 将 继承 过 来 。 注 意 : 这 里 的 PERSON 和 EMP 有 时 分 别 被 称 为 超 表 和 子 表 。 
参考 文献 【14. 13]】 和 26. 6 节 中 有 对 这 些 概念 的 进一步 讨论 和 批评 。 
除了 以 上 关于 定义 的 扩展 外 ， 当 然 还 需要 某 些 处 理 上 的 扩展 ， 例 如 : 
a 路 径 表 达 式 (例如 ，EMP. WORKS_FOR. LOCATION. STATE ) 。 注 意 : 这 一 表达 式 返 回 的 
可 能 是 标量 、 元 组 或 关系 。 同 时 还 需 注意 : 在 上 述 扩充 的 后 两 种 情况 下 ， 元 组 或 关系 的 成 
员 也 可 能 是 元 组 或 关系 ; 例如 ， 表 达 式 EMP. HOBBIES. NAME 返回 的 即 为 关系 。 此 外 ， 
这 里 的 路 径 表 达 式 下 降 到 控制 层次 ， 而 第 25 章 中 的 路 径 表 达 式 则 是 上 升 的 。 
@ 元 组 和 关系 的 值 (可 能 有 蔡 套 ) 。 例 如 〈 此 例 并 不 代表 实际 语法 ) : 
{ 'E001', ‘Smith', $50000, 


{ { 'Soccer', 11 ), ( 'Basebal1 ，9 ) )， 
( 'IBM', ( 'San Jose', 'CA' } ) ) 


关系 比较 运算 符 ( 例 如，SUBSET、SUBSETEQ 等 )。 注 意 : 这 些 具 体 的 操作 符 来 自我 们 
的 讨论 所 基于 的 某 特定 产品 。 在 该 产品 中 ，SUBSET 真正 意味 着 “适当 的 子 集 ”， 而 SUB- 
SETEQ 只 意味 着 “真子 集 ”1。 

遍历 类 的 层次 结构 的 操作 符 ( 例 如， 同时 检索 EMP 和 PERSON 的 信息 )。 注 意 ; 这 里 仍 
需 非常 小 心 。 在 有 些 情况 下 ， 查 找 PERSON 信息 及 相关 EMP 信息 的 查询 结果 不 再 是 关 
系 一 一 这 就 意味 着 关系 最 基本 的 封闭 属性 被 打破 ， 这 将 带 来 一 系列 很 麻烦 的 问题 (关于 





”很 抱 数 我 们 使 用 了 让 人 迷惑 的 术语 “实例 ”， 但 是 如 果 使 用 准确 的 术语 “ 值 ”或 者 “变量 ”， 那 么 我 们 想 描述 的 
模式 将 没有 什么 意义 了 。 
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这 一 问题 ， 参 考 文献 [26. 41] 一 一 其 将 这 种 返回 结果 称 为 “参差 不 齐 的 返回 ”一 一 仪 仅 
提出 :“ 客 户 端 程序 必须 准备 好 处 理 这 种 复杂 的 参差 不 齐 的 返回 结果 ”! ) 。 

s 在 诸如 SELECT 和 WHERE 子 句 中 调用 方法 的 能 力 (在 SQL 中 ) 。 

a 访问 属性 值 为 元 组 或 关系 的 成 员 的 能 力 。 

当 我 们 考虑 等 式 “关系 变量 = 类 ”如 何 具体 实现 时 ， 马 上 会 想到 这 么 一 大 堆 问 题 。 那 么 这 
一 等 式 到 底 存 在 什么 问题 呢 ? 

首先 我 们 注意 到 : 关系 变量 是 变量 ， 而 类 是 类 型 ， 它 们 怎么 可 能 相同 呢 ? 这 一 点 从 逻辑 上 就 足 
以 打消 “关系 变量 = 类 ”的 想法 。 然 而 ， 为 了 更 进一步 说 明 问 题 ， 我 们 列 出 了 以 下 供 参考 的 观点 : 

s 等 式 “ 关 系 变量 = 类 ”等 价 于 进一步 的 等 式 “ 元 组 = 对 象 ” 和 “属性 = (公共 ) 实例 变 

量 " 。 这 样 的 话 ，( 正如 我 们 在 第 25 章 中 看 见 的 ) 一 方面 一 个 真正 的 对 象 类 一 一 至 少 是 标 
量 或 “封装 的 ”对 象 类 一 一 必定 拥有 方法 ， 并 且 没 有 公共 实例 变量 ， 而 另 一 方面 关系 变 
量 “ 对 象 类 ” 却 一 定 有 公共 实例 变量 ， 并 且 只 在 某 些 情况 下 才 有 方法 (这 绝对 不 满足 
“封装 性 ”) 。 还 是 那 句 话 ， 这 两 个 概念 怎么 能 够 等 同 呢 ? 
属性 定义 间 有 着 巨大 的 差别 ， 如 “SAL NUMERIC” 和 “WORKS_FOR COMPANY” 。NU- 
MERIC 是 真正 的 数据 类 型 (真正 原始 的 域 ); 它 在 属性 SAL 的 值 上 设置 了 与 时 间 无 关 的 约 
束 。 相 反 ，COMPANY 并 不 是 真正 的 数据 类 型 ， 它 在 属性 WORKS_FOR 上 设置 的 约束 是 时 
间 相 关 的 〈 其 显然 依赖 于 关系 变量 COMPANY 的 当前 值 ) 。 事 实 上 ， 正 如 前 面 所 指出 的 ， 关 
系 变量 与 域 的 区 别 一 一 或 者 使 用 对 象 中 的 术语 ， 集 合 与 类 的 区 别 一 一 在 这 里 被 混 消 了 。 
如 我 们 所 看 到 的 ， 元 组 “对 象 ” 可 以 包含 其 他 的 “对 象 " ; 例如 ，EMP“ 对 象 ”显然 包含 
COMPANY“ 对 象 " ， 然 而 ， 事 实 上 它们 包含 的 是 “被 包含 对 象 ”的 指针 ， 用 户 必 须 非常 
清楚 这 一 点 。 例 如 ,假设 用 户 更 新 了 某 条 特定 的 COMPANY 元 组 〈 参 见 图 26-1) ， 所 有 包 
含 此 COMPANY 元 组 的 EMP 元 组 马上 可 以 看 到 更 新 。 注 意 : 我 们 并 非 认 为 这 样 不 好 ， 只 
是 这 样 的 话 ， 用 户 就 必须 了 解 内 情 ， 即 了 解 图 26-1 中 所 示 “ 模 型 ”是 不 正确 的 一 一 EMP 
元 组 并 不 真正 包含 COMPANY 元 组 ， 而 只 包含 指向 COMPANY 元 组 的 指针 。 

对 于 这 一 点 还 需 做 以 下 补充 ， 

a. 我 们 能 不 能 插入 一 条 EMP 元 组 、 并 将 其 包含 的 COMPANY 元 组 值 设 为 目前 在 COMPANY 
关系 变量 中 尚未 存在 的 元 组 ? 如 果 答 案 是 能 ， 那 么 对 于 INSERT 操作 没有 任何 限制 ,这样 把 
WORKS_FOR 定义 成 COMPANY 就 没有 任何 意义 。 如 果 答 案 是 不 能 ， 那 么 对 于 INSERT 操作 将 
会 产生 不 必要 的 麻烦 一 一 用 户 不 得 不 给 出 整个 公司 的 信息 而 不 仅仅 是 公司 名 称 〈 即 外 码 值 ) 。 此 
外 ， 给 出 整个 公司 信息 意味 着 告诉 系统 一 些 系统 本 身 已 经 知道 的 内 容 ， 并 且 在 最 坏 情况 下 ， 本 该 
成 功 完成 的 INSERT 操作 会 由 于 用 户 在 给 出 完整 信息 时 的 小 错误 而 失败 。 

b. 假设 我 们 希望 在 公司 上 加 入 ON DELETE RESTRICT 规则 (也 就 是 说 ， 只 要 公司 有 一 个 雇 
员 ， 公 司 本 身 就 不 能 被 删除 ) 。 此 规则 必须 由 过 程 化 代码 来 实现 ， 如 方法 M (注意 关系 变量 EMP 
并 没有 可 附加 此 规则 声明 的 外 码 ) 。 此 外 ，SQL 中 的 标准 DELETE 操作 现在 也 只 能 在 关系 变量 
COMPANY 的 方法 M 中 实现 ,那么 如 何 来 实现 这 一 规则 呢 ? 其 他 类 似 的 问题 也 会 被 提出 ， 如 使 
用 规则 ON DELETE CASCADE， 等 等 。 

c. 同时 注意 到 : 尽管 EMP 元 组 包含 COMPANY 元 组 ， 当 删除 EMP 元 组 时 并 不 “级 联 地 ” 
删除 相应 的 COMPANY 元 组 。 

从 以 上 几 点 可 以 看 出 ， 我 们 讨论 的 不 再 是 关系 模型 。 其 基本 的 数据 对 象 不 再 是 仅 包 含 值 的 关 
系 ， 而 是 包含 值 和 指针 的 “关系 ”一 一 就 关系 模型 而 言 ， 这 已 经 不 再 是 关系 。 换 名 话说， 我 们 
损害 了 关系 模型 的 概念 完整 性 。 注 意 ， 概念 完整 性 这 个 术语 是 由 Fred Brooks 提出 来 的 ， 他 曾 这 
样 描述 概念 完整 性 【26. 3] : “概念 完整 性 是 系统 设计 中 最 重要 的 考虑 。 使 一 个 系统 忽略 某 个 不 
规则 的 特性 来 反映 一 个 设计 思想 集合 的 做 法 ， 比 使 一 个 包含 许多 好 的 、 但 独立 、 不 协调 的 思想 的 
系统 的 做 法 更 好 。” 在 20 年 后 ， 他 又 加 上 :“ 一 个 清楚 的 好 的 程序 产品 必须 呈现 …… 一 个 一 致 的 
智力 模型 …… 概 念 完整 性 …… 是 一 个 完全 灵活 使 用 的 一 个 最 重要 的 因素 …… 现 在 我 比 以 前 更 相信 
这 一 点 。 概 念 完 整 性 是 产品 质量 的 核心 。” 
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a 假设 将 关系 变量 EMP 在 属性 HOBBIES 上 的 投影 定义 为 视图 V。V 是 由 基 表 导出 的 关系 变 
量 ， 所 以 ， 如 果 等 式 “ 关 系 变量 = 类” 成立,，V 也 是 一 个 类 。 它 是 什么 类 ? 类 当然 还 有 
方法 ， 在 V 上 定义 的 方法 又 是 什么 ? 

“类 ”EMP 只 有 一 个 方法 RETIREMENT_BENEKFITS ， 显 然 这 一 方法 并 不 适合 “类 ”V。 事 

实 上 ， 应 用 于 “类 ”EMP 的 方法 几乎 都 不 能 应 用 于 “类 ”V， 所 以 对 于 投影 的 结果 没有 任何 可 
使 用 的 方法 ;也 就 是 说 ， 无 论 投影 的 结果 是 什么 ， 它 肯定 不 是 类 〈 也 许 我 们 认为 它 是 类 ， 但 它 
有 公共 实例 变量 而 没有 方法 ,我 们 已 观察 到 一 个 真正 的 “封装 ”类 有 方法 而 没有 公共 实例 
变量 )。 

非常 明显 ， 当 人 们 将 关系 变量 与 类 等 同时 ， 他 们 只 考虑 到 基 表 而 忘记 了 由 基 表 所 导出 的 表 
(我 们 在 上 面 讨论 的 指针 是 指向 基 表 元 组 的 指针 ， 而 非 导出 表 ) 。 然 而 ， 以 这 种 方式 区 分 基 表 和 
导出 表 是 错误 的 ， 因 为 关系 变量 是 基 表 还 是 导出 表 这 一 问题 的 答案 从 某 种 意义 上 来 说 是 任意 的 
( 想 一 想 第 10 章 中 关于 可 交换 性 原则 的 讨论 ) 。 

= 最后， 能 够 支持 什么 域 ? 那些 支持 等 式 “关系 变量 = 类 ”的 人 对 域 不 会 有 很 大 的 认识 ， 
因为 他 们 没 能 看 到 域 对 于 整个 模式 的 适应 性 。 然 而 ， 我 们 知道 ， 域 是 基本 的 。 

以 上 所 有 内 容 可 以 概括 如 下 : 显然 ， 系 统 可 以 在 错误 的 等 式 “关系 变量 = 类 ”上 进行 构建 ; 
事实 上 也 确实 有 这 样 的 系统 存在 。 然 而 ， 那 些 系 统 (就 像 汽 车 在 引擎 中 没有 油 或 建筑 在 沙滩 上 
的 房子 ) 也 许 能 提供 一 些 有 用 的 服务 ， 但 最 终 注定 是 要 失败 的 。 

第 一 个 根本 性 错误 从 何 而 来 

推荐 第 一 个 根本 性 错误 的 来 源 是 一 件 有 趣 的 事 。 我 们 认为 其 根源 是 缺乏 统一 的 意见 〈 见 第 
25 章 ) ， 它 来 自 于 对 象 世界 中 的 某 些 术语 。 特 别 地 ， 术 语 对 象 本 身 并 没有 一 个 普遍 接受 且 意 见 一 
致 的 意思 一 一 这 正 是 我 们 自己 更 不 喜欢 使 用 它 的 原因 。 

尽管 这 样 ， 至 少 在 对 象 编程 语言 领域 ， 术 语 “ 对 象 ”通常 指 更 为 传统 的 值 或 变量 。 不 幸 的 
是 ， 此 术语 还 用 在 其 他 领域 ; 作为 “对 象 分 析 与 设计 ”或 “对 象 模型 ”技术 的 一 部 分 使 用 在 某 
些 语义 模型 领域 ( 见 [14.3] ) 。 显 然 ， 在 那些 领域 中 ,“ 对 象 ”不 表示 值 或 变量 ， 而 是 数据 库 中 
通常 所 称 的 实体 〈 与 编程 语言 中 的 对 象 不 同 ， 这 里 的 对 象 并 不 是 封装 的 ) 。 换 句 话说, “对 象 模 
型 ”实际 上 就 是 “实体 /关系 模型 ";， 在 参考 文献 [14.3] 中 或 多 或 少 承认 了 这 一 点 。 结 果 ， 在 
某 些 系统 中 标识 为 “对 象 ”的 事物 被 映射 为 关系 变量 中 的 元 组 而 非 域 中 的 值 。 


26.3 第 二 个 根本 性 错误 


本 节 我 们 将 讨论 第 二 个 根本 性 错误 ; 正如 我 们 将 要 看 到 的 ,第 二 个 错误 可 以 说 是 第 一 个 错误 
在 逻辑 上 的 延续 ， 但 就 其 本 身 而 言 也 非常 关键 。 实 际 上 ， 在 避免 第 一 个 错误 的 情况 下 ， 仍 有 可 能 
犯 第 二 个 错误 。 事 实 上 ， 市 场 上 每 一 个 对 象 / 关 系 产 品 都 犯 了 第 二 个 错误 ， 包 括 SQL 标准 (参看 
26.6 节 ) 。 第 二 个 错误 为 : 把 指针 与 关系 混为一谈 。 
为 了 说 明 这 个 问题 ， 首 先 回顾 一 下 采用 等 式 “ 关 系 变量 = 类 ”后 的 主要 特性 。 某 些 读者 可 
能 对 上 一 节 的 内 容 有 些 疑 惑 ， 因 为 某 些 我 们 似乎 是 反对 的 特性 在 本 书 的 前 面部 分 曾经 支持 过 
(元 组 和 关系 值 属性 即 为 一 个 例子 ) 。 所 以 在 这 里 就 这 一 问题 做 进一步 说 明 : 
sm 元 组 和 关系 值 属性 : 事实 上 ， 我 们 并 不 反对 这 种 属性 。 我 们 所 反对 的 是 〈(a) 必须 有 这 种 
属性 的 思想 ， 尤 其 当 其 值 已 出 现在 其 他 (基本 ) 关系 变量 中 时 ; (b) 属性 的 值 并 非 元 组 
或 关系 本 身 ， 而 是 指向 元 组 或 关系 的 指针 的 思想 一 一 这 意味 着 ,我 们 讨论 的 已 根本 不 是 元 
组 或 关系 值 。 注 意 : 事实 上 ， 通 过 指针 指向 元 组 或 关系 值 的 思想 毫 无 意义 ， 关 于 这 一 点 下 
面 我 们 还 将 详细 讨论 。 
s 关系 变量 的 相关 操作 符 (“方法 ”) : 我 们 也 不 反对 这 一 思想 一 一 实质 上 这 就 是 存储 或 触发 
过 程 的 另 一 种 表述 方式 。 我 们 所 反对 的 是 将 操作 符 与 关系 变量 〈 且 只 与 关系 变量 ) 联系 
而 不 与 域 或 类 型 相 联 系 的 思想 。 我 们 也 反对 将 操作 符 与 特定 关系 变量 联系 起 来 的 思想 
(这 其 实 是 目标 运算 对 象 的 另 一 种 表现 形式 ) 。 
sm 子 类 和 超 类 : 对 此 我 们 明确 反对 。 在 一 个 将 关系 变量 与 类 等 同 的 系统 中 ， 子 类 和 超 类 变 成 
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了 子 表 和 超 表 一 一 这 一 思想 非常 值得 怀疑 (参考 [14. 13] 和 26.6 节 )。 我 们 希望 拥有 第 
20 章 所 描述 的 适当 的 继承 性 支持 。 
a 路径 表达 式 : 我 们 并 不 反对 那些 在 参照 中 用 于 语 [26.15] 中 
提 到 的 从 外 部 码 到 相关 候选 码 的 表达 形式 。 然 而 ，26. 2 节 中 讨论 的 路 径 表 达 式 却 是 某 些 指针 
链 的 简写 ， 对 此 我 们 是 坚决 反对 的 〈 因 为 我 们 首先 反对 指针 ) 。 
a 元 组 和 关系 名 称 : 这 是 必要 的 一 一 虽然 需要 一 般 化 为 元 组 和 关系 选择 子 [3.3]。 
a 关系 比较 操作 符 : 同样 是 必要 的 (但 需要 遵循 正确 的 操作 方式 ) 。 
s 遍历 类 层次 结构 的 操作 符 : 如 果 “ 类 的 层次 ” 即 意味 着 “关系 变量 的 层次 ”， 那么 我 们 对 
此 是 坚决 反对 的 ， 因 为 这 样 打破 了 关系 封闭 的 属性 ( 见 [26. 41])。 如 果 “ 类 的 层次 ” 意 
味 着 第 20 章 中 所 提 到 的 “类 型 层次 ”， 我们 则 表示 赞成 (但 实际 并 非 如 此 )。 
a 在 诸如 SELECT 或 WHERE 等 子 句 中 调用 方法 : 当然 不 反对 。 
@ 对 包含 元 组 或 关系 的 属性 值 中 单个 成 员 的 访问 : 当然 不 反对 。 
现在 重点 考虑 将 指针 与 关系 相 混淆 的 问题 。 从 定义 来 看 ,- 问 题 的 关键 是 在 于 ， 指 针 指 向 的 是 
变量 而 不 是 值 (因为 上 只 有 变量 才 有 地 址 而 值 没 有 ); 如 果 关 系 变量 R1 中 的 属性 值 为 指向 关系 变 
量 的 指针 ， 这 些 指 针 指向 的 一 定 是 元 组 变量 而 非 元 组 值 。 但 是 在 关系 模型 中 并 不 存在 元 组 变 
量 ， 关 系 模型 处 理 关系 值 ， 关 系 值 (大 致 上 ) 是 元 组 值 的 集合 ， 而 元 组 值 又 (大 致 上 ) 是 标量 
值 的 集合 。 同 时 关系 模型 也 处 理 关 系 变量 ， 关 系 变量 值 为 关系 ; 然而 ， 它 并 不 处 理 元 组 变量 或 标 
量变 量 。 总 之 ， 在 关系 模型 中 唯一 的 变量 (也 是 关系 数据 库 中 唯一 允许 的 变量 ) 为 关系 变量 。 
所 以 ， 将 指针 与 关系 相 混 淆 的 思想 实质 上 是 在 关系 模型 中 引进 了 某 一 全 新 的 变量 ， 从 而 构成 了 对 
关系 模型 的 背离 。 正 如 上 节 中 指出 的 ， 这 严重 损害 了 关系 模型 的 概念 完整 性 。 
通过 以 上 讨论 ， 我 们 很 不 幸 地 看 到 ， 目 前 绝 大 多 数 对 象 /关系 产品 一 一 甚至 那些 避免 了 第 一 
种 根本 性 错误 的 产品 一 一 就 是 因为 采用 了 上 述 方式 而 混淆 了 指针 和 关系 的 区 别 。 当 Codd 定义 关 
系 模型 时 ， 他 有 意 排除 了 指针 。 他 曾 在 [6.2] 中 写 到 
我 们 可 以 放心 地 假设 所 有 用 户 《 包 括 最 终 用 户 ) 理解 值 之 间 的 比较 ,但 能 够 理解 指针 复杂 
性 的 用 户 却 实在 不 多 。 关 系 模型 是 建立 在 这 一 原则 基础 上 的 …… 即使 用 户 能 够 理解 指针 的 复杂 
性 ， 对 指针 的 处 理 也 比值 之 间 的 比较 更 容易 出 错 。 
具体 来 说 ， 指 针 的 使 用 将 会 导致 指针 冲突 ， 而 这 正 是 系统 容易 出 错 的 一 大 原因 。 如 第 25 章 
中 所 提 到 的 ， 对 象 系统 的 这 一 特性 有 时 被 贬低 为 “就 像 是 CODASYL 系统 的 重新 使 用 ”。 
对 这 一 观点 更 详细 的 论证 可 以 参见 [25. 19] 和 [26. 15] 。 在 参考 文献 [26. 12 ~ 26. 14] 和 
[26. 17] 中 讨论 了 在 数据 模型 中 数据 构造 的 基本 思想 。 
1. 指针 和 一 个 好 的 继承 的 模型 是 矛盾 的 
事实 上 有 另外 一 个 强 有 力 的 观点 反对 支持 指针 ， 当 Codd 在 写 参考 资料 [6.2] 时 绝 不 可 能 
意识 到 这 个 观点 。 我 们 用 一 个 简单 的 例子 来 说 明 那 个 观点 。 (我 们 举 这 个 例子 使 用 的 是 原先 的 程 
序 变量 而 不 是 数据 库 关系 ， 这 是 为 了 集中 到 真正 的 问题 上 来 而 不 被 一 些 枝 节 问 题 烦 扰 。) 再 次 考 
虚 ELLIPSE 和 CIRCLE 类 型 。 定 义 PTR_TO_ELLIPSE 和 PTR_TO_CIRCLE 为 指针 类 型 ， 即 使 变 
量 类 型 PTR_TO_ELLIPSE 和 PTR_TO_CIRCLE 分 别 表示 为 “指向 椭圆 的 指针 ”和 “指向 圆 的 指 
针 ”。 最 后 ， 使 ELLIPSE 成 为 CIRCLE 的 超 类 ， 因 而 使 PTR_TO_ELLIPSE 成 为 PTR_TO_CIRCLE 
的 超 类 。 现 在 考虑 下 面 的 代码 片断 ;: 


VAR E ELLIPSE ; 
VAR XC PTR TO i CIRCLE ; 














E := CIRCLE ( LENGTH ( 5.0 ), POINT ( 0.0, 0.0 ) ) ; 
XC := TREAT DOWN AS PTR TO CIRCLE ( PTR TO (FE)),; 


THEA(E) := LENGTH ( 6.0 ); 
解释 . 


1) 那 两 个 变量 声明 是 不 需 加 以 说 明 的 。 
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2) 在 对 E 的 赋值 之 后 ， 变 量 E 就 包含 了 一 个 半径 为 5 的 圆 ,了 ”注意 到 这 个 赋值 语句 的 可 行 
性 ; 注意 到 也 的 指定 类 型 现在 是 CIECLE。 

3) 出 现在 第 二 条 赋值 语句 的 右边 的 表达 式 PTR_TO 是 我 们 通常 所 说 的 引用 操作 符 : 假如 有 
一 个 变量 V， 它 返回 变量 V 的 地 址 ， 即 V 的 指针 。 在 这 个 例子 中 ， 它 返回 类 型 PTR_TO_ELLIPSE 
的 指针 值 。 但是， 由 于 指针 值 指向 的 那个 变量 的 指定 类 型 是 CIRCLE， 事实 上 指针 值 是 类 型 
PTR_TO_CIRCLE， 而 不 仅 是 类 型 PTR_TO_ELLIPSE。 所 以 TREAT DOWN 操作 成 功 了 ， 那 个 语 
句 将 变量 EE 的 指针 〈 地 址 ) 赋 给 变量 XC。 

4) 第 三 个 语句 (THE_A (E)) 是 最 关键 的 一 个 。 将 会 发 生 什 么 ”有 三 个 可 能 ， 具 体 如 下 : 

a. 出 现 一 个 运行 类 型 错误 ， 因 为 并 不 支持 对 THE_A 中 对 指定 类 型 的 变量 为 CIRCLE 的 赋 
值 。 换 句 话说 ， 并 不 支持 约束 一 般 化 一 一 因此 也 不 支持 约束 专门 化 ， 因 此 继承 模型 是 坏 的 〈 当 
然 它 不 是 “一 个 现实 的 可 信 的 模型 ”一 一 见 第 20 章 ) 。 在 任何 情况 下 ， 运 行 类 型 错误 都 是 令 人 
不 快 的 。 

b. 这 个 语句 “成 功 执行 了 ”， 但 是 没有 发 生 一 般 化 约束 。 结 果 是 变量 E 现在 包含 一 个 “ 非 
贺 形 的 圆 ”( 可 能 指定 类 型 仍然 是 CRCLE ， 但 是 那个 “ 圆 ” 有 不 同 长 度 的 半 轴 ) 。 这 个 继承 模 
型 还 是 不 好 的 ( 它 不 是 一 个 现实 的 可 信 的 模型 ) ， 因 为 约束 一 般 化 和 约束 专门 化 是 不 被 支持 的 。 
再 者 ， 不 仅 变 量 已 包含 一 个 “ 非 圆 形 的 圆 ”， 而 且 变 量 XC 也 指向 一 个 “ 非 圆 形 的 圆 ”"。 此 外 ， 
不 支持 类 型 约束 ! 一 一 因为 如 果 这 样 ， 不 能 产生 “ 非 圆 形 的 圆 ” 了 。 换 名 话说， 完整 性 约束 的 
最 基本 的 类 型 不 能 被 支持 : 当 我 们 定义 一 个 类 型 ， 我 们 不 能 指定 那个 类 型 的 合法 值 。 

c. 语句 成 功 执行 且 发 生 约 束 一 般 化 。 也 就 是 说 ， 变 量 E 现在 包含 一 个 “椭圆 ” 且 它 指定 的 
类 型 是 ELLIPSE。 但是， 继承 模型 仍 是 坏 的 ， 因 为 变量 XC ( 它 的 类 型 是 PTR_TO_CIRCLE, ) 现 
在 包含 一 个 指定 类 型 是 PTR_TO_ELLIPSE 的 值 ! 这 暗示 着 类 型 约束 不 能 被 支持 。 注 意 : 由 于 允 
许 一 个 声明 类 型 了 的 变量 包含 一 个 指定 类 型 ， 是 了 的 超 类 的 值 是 没有 逻辑 意义 的 ， 更 有 可 能 的 是 
原先 的 语句 要 么 在 段 1 下 运行 失败 ， 要 么 在 段 2 下 “成 功 执行 ”而 不 包含 有 约束 一 般 化 。 换 句 
话说 ， 这 个 第 三 个 可 能 性 可 能 早 就 无 成 功 希望 了 。 

我 们 从 这 个 例子 中 得 出 结论 : 如 果 支 持 指 针 ， 继 承 模型 就 是 不 好 的 ; 也 就 是 说 ， 指 针 和 一 个 
好 的 继承 的 模型 是 矛盾 的 。 这 是 丢弃 指针 的 又 一 个 好 的 理由 。 

2. 第 二 个 根本 性 错误 从 何 而 来 

要 找 出 第 二 个 根本 性 错误 的 理由 是 非常 困难 的 (主要 是 指 技术 上 的 合理 性 说 明 一 一 有 些 辩 
护 只 从 策略 上 考虑 而 根本 不 涉及 技术 ) 。 当 然 ， 由 于 对 象 系统 和 编程 语言 都 包含 指针 (以 对 象 ID 
的 形式 表示 ) ， 将 指针 与 关系 混淆 的 思想 很 可 能 是 希望 使 关系 系统 更 为 “对 象 化 ”， 但 这 种 “ 辩 
护 ” 只 是 将 问题 推 向 了 另 一 个 层次 ; 我 们 已 经 很 清楚 地 表明 : 对 象 系统 将 指针 暴露 给 用 户 是 因 
为 它们 不 能 很 好 地 区 分 模型 与 实现 的 差别 。 

所 以 我 们 只 能 猜测 ， 指 针 与 关系 混 消 的 思想 之 所 以 被 广泛 采用 是 因为 很 少 有 人 理解 为 什么 当 
初 要 将 指针 排除 在 关系 之 外 。 正 如 Santayana 所 说 : 那些 不 能 牢记 过 去 的 人 必 将 重复 过 去 所 犯 的 
错误 。 在 这 一 点 上 我 们 非常 同意 Maurice Wilkes 在 [26. 46] 中 的 说 法 : 

我 很 高 兴 着 到 计算 机 科学 的 教学 建立 在 历史 框架 的 基础 上 .…… 学 生 们 应 该 了 解 目 前 这 一 领域 
的 发 展 从 何 而 来 ， 做 过 哪些 尝试 ， 哪 些 可 行 哪些 不 可 行 以 及 硬件 的 改进 对 其 发 展 的 贡献 。 如 果 在 
教学 中 缺少 这 些 内 容 ， 人 们 往往 会 在 一 些 原则 性 问题 上 犯错 误 。 这 样 我 们 不 但 不 能 站 在 前 人 的 唐 
膀 上 继续 前 进 ， 反 而 还 会 热衷 于 一 些 已 被 证 明 是 不 可 行 的 方法 。 


26. 4 实现 上 的 问题 


适当 的 数据 类 型 支持 所 带 来 的 一 大 好 处 就 是 允许 第 三 方 厂商 〈 包 括 DBMS 厂商 本 身 ) 构建 
并 出 售 可 方便 地 插入 到 DBMS 中 的 独立 的 “数据 类 型 ” 包 。 例 如 对 复杂 文本 处 理 、 金 融 时 间 序 








名 ”第 20 章 中 ,假设 笛 卡 尔 对 指针 的 可 能 的 表示 法 是 称 为 POINT 而 不 是 CARTESIAN。 例 子 中 的 对 CIRCLE 选择 子 
的 第 二 个 语句 是 一 个 POINT 选择 子 的 调用 (invocation) 。 
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列 处 理 、 地 理 空 : 间 数 据 分 析 等 的 支持 。 对 这 些 包 的 描述 各 种 各 样 ， 如 Informix 的 “数据 刀片 ” 
(data blades) 、Oracle 的 “数据 盒 ” ( data cartridges) 、IBM 的 “关系 扩展 器 ” (relational extend- 
ers) ,” 等 等 。 存 下 文中 ,我 们 仍 将 使 用 术语 “类 型 包 ”( type package) 。 

然而 ， 在 系统 中 加 入 新 的 类 型 包 并 非 简单 的 工作 ; 要 想 具 备 此 能 力 ， 首 先 需 要 DBMS 本 身 
在 设计 和 结构 方面 做 相应 变动 。 考 虑 查询 中 包含 引用 用 户 定 义 类 型 数据 和 调用 用 户 定义 操作 符 的 
情况 : 

9 首先 ， 查 询 语言 编 译 器 要 进行 语法 分 析 和 类 型 检查 ， 所 以 编译 器 必须 知道 用 户 定 义 的 类 型 

和 操作 符 。 

a 其 次 ， 优 化 器 必须 确定 适当 的 查询 计划 ， 所 以 它 也 要 了 解 用 户 定义 的 类 型 和 操作 符 的 某 些 

特性 。 具 体 来 说 ， 它 必须 知道 数据 在 物理 上 是 如 何 存储 的 (看 下 一 条 )。 

s 最 后 ,管理 物理 存储 的 部 分 也 必须 支持 新 的 存储 结构 一 一 四 叉 树 、R 树 等 一 一 我 们 在 

26. 1 节 中 讨论 矩形 问题 时 提 到 过 ， 它 甚至 还 应 该 支持 有 经 验 的 用 户 引 入 新 的 存储 结构 ， 
并 访问 自己 定义 的 方法 [26.29，26.43 ] 。 
总 之 ， 系统 需 具有 可 扩展 性 一 事实 上 在 每 一 层 上 都 要 有 可 扩展 性 。 下 面 我 们 将 对 每 一 一 层 做 
简要 讨论 。 
1. 语法 分 析 和 类 型 检查 
在 传统 系统 中 ， 所 有 可 用 的 类 型 和 操作 符 都 是 内 置 的 ， 有 关 它 们 的 信息 可 以 “ 硬 捆绑 ”到 
查询 语言 编译 器 中 。 相 反 ， 在 用 户 可 自 定 义 类 型 与 操作 符 的 系统 中 ， 这 种 “ 硬 捆绑 ”的 方法 显 
然 是 行 不 通 的 。 所 要 改进 的 地 方 包括 : 
se 用 户 定义 类 型 和 操作 符 信息 一 一 包括 内 置 类 型 和 操作 符 信息 一 一 保存 在 系统 字典 中 。 这 意 
味 着 字典 本 身 需 要 重新 设计 (至 少 需要 扩展 ) ; 同时 ， 引 入 新 的 类 型 包 意 味 着 需 对 字典 进 
行 大 量 更 新 (在 Tutorial D 中 ， 更 新 是 在 执行 TYPE 和 OPERATOR 定义 声明 时 完成 的 ) 。 

s 需要 重 写 编译 器 来 访问 字典 以 获取 必要 的 类 型 和 操作 符 信息 。 通 过 这 些 信息 可 以 实现 第 5 
和 第 20 章 中 所 描述 的 类 型 检查 等 内 容 。 

2. 优化 

关于 优化 设计 有 许多 问题 ， 在 本 书 中 我 们 探讨 表面 的 问题 。 这 些 问 题 包括 : 

a 表达 式 转 换 ( “查询 重 写 ”) : 如 第 18 章 中 所 看 到 的 ， 传 统 的 优化 器 通过 某 些 转换 规则 来 

重 写 查询 。 然 而 ， 这 些 转换 规则 一 般 都 “ 硬 捆绑 ”在 优化 器 上 (因为 所 有 数据 类 型 和 操 
作 符 都 是 内 置 的 ) 。 相 反 ， 在 对 象 /关系 系统 中 相关 信息 (至 少 有 关 用 户 自 定义 的 类 型 与 
操作 符 ) 需要 保存 在 目录 中 一 一 这 就 意味 着 目录 需 进一步 扩充 ， 而 优化 器 本 身 也 需要 重 
写 。 下 面 是 一 些 示 例 : 

a) 给 定 表 达 式 NOT (STATUS >20) ， 传 统 优化 器 将 会 把 它 变 成 STATUS <20 (采用 第 二 种 
表达 形式 能 够 利用 STATUS 上 的 索引 而 第 一 种 却 不 行 ) 。 同 样 ， 如 果 用 户 定义 的 操作 符 是 某 种 形 
式 的 相反 关系 ， 则 也 需要 通过 一 定 的 方式 通知 优化 器 。 

b) 传统 的 优化 器 能 够 知道 : 表达 式 STATUS > 20 与 表达 式 20 < STATUS 在 逻辑 上 是 一 致 
的 。 如 果 用 户 定义 的 操作 符 中 存在 这 种 情况 ， 也 需要 通过 一 定 的 方式 通知 优化 器 。 

c) 传统 的 优化 器 还 能 知道 : 操作 符 “+ ”与 “- ”相互 抵消 〈 即 互 为 反 操 作 ); 例如 ， 表 
达 式 STATUS + 20 -20 可 简化 为 STATUS。 当 用 户 定义 的 两 个 操作 符 也 互 为 反 操 作 时 ， 需 要 通知 
优化 器 。 

a 选择 率 : 给 定 某 一 布尔 表达 式 ， 如 STATUS > 20， 典 型 的 优化 器 会 估算 一 下 此 表达 式 的 选 

择 率 (即使 表达 式 成 立 的 元 组 的 百分比 ) 。 对 于 内 置 的 数据 类 型 和 操作 符 ， 选 择 率 信息 可 
以 “ 硬 捆绑 ”到 优化 器 中 ; 而 对 于 用 户 定义 的 类 型 和 操作 符 ， 则 需要 向 优化 器 提供 一 些 
用 户 定 义 的 代码 来 进行 选择 率 的 估算 。 

和 代价 公式 : 优化 器 需要 知道 执行 某 个 用 户 定 义 操作 符 的 代价 。 例 如 ， 给 定 表达 式 p AND 9， 





”我 们 认为 这 是 不 恰当 的 术语 。 
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其 中 pp 为 某 个 复杂 多 边 形 的 AREA 操作 符 ， 而 9 为 简单 的 比较 如 STATUS >20。 我 们 当然 希 
望 系 统 先 执行 9， 只 有 那些 满足 4 的 元 组 才 需 要 执行 p 做 进一步 判断 。 事 实 上 ， 一 些 经 典 的 
表达 式 转换 启发 规则 ， 如 在 连接 前 先 做 选择 等 ， 对 于 用 户 定义 的 类 型 和 操作 符 来 说 都 不 一 定 
有 效 [26. 10，26.24]。 

se 存储 结构 和 访问 方法 : 显然 优化 器 实际 上 需要 知道 存储 结构 和 访问 方法 〈 见 下 一 小 节 ) 。 

3. 存储 结构 

显然 对 象 /关系 系统 比 SQL 系统 在 物理 层 上 需要 更 多 的 存储 和 访问 数据 的 方式 。 可 以 从 下 面 

几 方 面 考虑 : 

9 新 的 存储 结构 : 如 前 所 述 ， 系 统 需要 支持 新 的 “和 硬 捆绑 ”的 存储 结构 〈 如 R 树 等 ) ， 甚 至 
还 需要 提供 方式 ， 让 有 经 验 的 用 户 自 己 来 引入 新 的 存储 结构 和 访问 方法 。 

a 用 户 自 定 义 类 型 数据 上 的 索引 : 传统 的 索引 是 基于 一 些 固定 类 型 的 数据 和 对 于 “< ” 操 
作 符 的 一 个 固定 的 理解 上 的 。 在 对 象 / 关 系 系统 中 ， 要 想 在 用 户 定义 类 型 的 数据 上 构建 索 
引 ， 则 需要 了 解 用 户 定义 操作 符 的 语义 〈 假 设 此 操作 符 在 一 开始 已 被 定义 了 ) 。 

s 操作 符 结果 集 上 的 索引 : 直接 在 类 型 POLYGON 的 数据 集合 上 构建 索引 比较 简单 ， 最 可 
能 的 方式 是 按照 多 边 形 的 内 部 字符 串 来 对 索引 进行 排序 。 然 而 ， 基 于 多 边 形 面积 来 构建 索 
引 将 会 有 用 得 多 。 注 意 : 我 们 在 第 22 章 中 将 此 索引 称 作 函数 索引 。 


26.5 真正 融合 的 好 处 


在 参考 文献 [26. 41] 中 ，Stonebraker 列 出 了 DBMS 的 “分 类 甜 阵 ”( 见 图 26-4)。 和 矩阵 的 
第 一 象限 表示 那些 只 处 理 简单 数据 并 且 不 支持 特定 查询 的 应 用 (传统 的 文字 处 理 器 是 其 中 的 代 
表 ) 。 这 类 应 用 从 经 典 的 定义 来 看 并 非 真 正 的 数据 库 应 用 ; 所 谓 的 “DBMS” 只 是 服务 于 特定 需 
求 并 构建 在 操作 系统 之 上 的 内 置 文件 系统 。 

第 二 象限 表示 那些 支持 特定 查询 但 只 处 理 简单 数据 的 应 用 。 目 前 绝 大 多 数 应 用 都 属于 这 一 象 
限 ， 这 也 是 传统 的 关系 DBMS 最 为 适合 的 领域 。 

第 三 象限 表示 那些 不 支持 特定 查询 但 能 够 处 理 复杂 数据 的 应 用 。 例 如 ，CAD/CAM 应 用 即 属 
于 这 一 象限 。 目 前 的 对 象 DBMS 其 目标 就 是 这 部 分 的 市 场 〈 传 统 的 SQL 产品 在 第 三 象限 中 的 应 
用 效果 不 理想 ) 。 

最 后 ， 第 四 象限 表示 那些 既 支 持 特定 查询 又 能 够 处 理 复杂 数据 的 应 用 。Stonebraker 曾 给 出 一 
个 例子 : 某 数据 库 中 包含 许多 数字 幻灯 片 ， 拥 有 典型 查询 如 “给 出 所 有 在 加 州 萨克拉门托 方圆 
20 英里 内 拍摄 的 有 关 日 落 的 照片 ” 。 通 过 对 这 一 示例 的 分 析 ， 他 提出 了 自己 的 观点 : (a) 对 象 / 


关系 DBMS 适合 第 四 象限 的 应 用 ; (b) 若干 年 后 ， 
大 部 分 应 用 将 会 在 此 象限 中 。 例 如 ， 甚 至 简单 的 人 | guery | 


事 资料 也 会 包括 雇员 的 相片 、 声 音 记录 等 。 
Simple data Complex data 











总 之 ，Stonebraker 论证 (我 们 同意 这 一 点 )“ 对 
象 /关系 系统 是 未 来 的 发 展 方向 ”; 它们 并 不 会 县 花 
一 现 并 被 其 他 思想 所 取代 。 然 而 ， 应 该 提醒 大 家 的 
是 ， 就 我 们 了 解 ， 一 个 真正 的 对 象 /关系 系统 首先 是 。 图 26-4 Stonebraker 的 DBMS 分 类 和 矩阵 
一 个 真正 的 关系 系统 。 具 体 来 说 ， 这 一 系统 不 会 犯 那 两 个 根本 性 错误 ! 在 这 一 点 上 Stonebraker 
可 能 不 怎么 同意 我 们 的 观点 ， 至 少 在 文献 [26. 41] 中 他 并 没有 提 到 这 两 个 错误 。 事 实 上， 文中 
甚至 认为 将 指针 与 关系 结合 是 可 接受 也 是 必要 的 。 

尽管 如 此 ， 我 们 仍然 认为 真正 的 对 象 /关系 系统 能 够 解决 单纯 的 对 象 系统 所 遇 到 的 所 有 问题 。 
具体 来 说 ， 此 系统 可 方便 地 支持 下 列 内 容 : 

e 特定 查询 、 视 图 定义 及 声明 完整 性 约束 ; 

s 跨越 整个 类 的 方法 (这 样 就 不 需要 特别 的 “目标 ”运算 对 象 ) ; 

a 动态 定义 类 (对 于 特定 查询 的 结果 ); 

s 双重 模式 访问 ( 见 第 4 章 。 在 第 25 章 中 我 们 并 未 强调 这 一 点 ， 但 典型 的 对 象 系统 不 支持 
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双重 模式 访问 ; 相反 ， 它 们 使 用 不 同 的 语言 来 访问 数据 库 ) ; 
e 事务 约束 ; 
@ 语义 优化 ; 
sa 度 (属性 数目 ) 在 2 以 上 的 关系 ; 
s 外 码 规则 (ON DELETE CASCADE 等 ) ; 
sa 可 优化 性 ; 
等 等 。 此 外 还 支持 : 
sm 屏蔽 OID 和 指针 冲突 ， 使 其 对 用 户 不 可 见 ; 
me“ 麻烦 ”对 象 的 问题 (例如 ， 连 接 两 个 对 象 的 结果 是 什么 ?) 不 再 存在 ; 
和 仍 保持 封装 的 优点 ， 但 针对 的 是 关系 中 的 标量 值 而 非 关 系 本 身 ; 
m 关系 系统 能 处 理 “ 复 杂 的 ”应 用 ， 如 CAD/CAM 等 。 
最 后 ， 这 一 方法 在 概念 上 是 清晰 的 。 


26.6 SQL 工具 


SQL : 1999 的 对 象 /关系 特征 是 它 与 SQL: 1992 的 最 明显 和 广泛 的 不 同 。 我 们 已 经 在 之 前 的 
章节 描述 和 分 析 了 许多 这 样 的 章节 。 具 体 如 下 : 

a 在 第 5 章 ， 我们 说 明了 两 种 不 同 的 种 类 的 用 户 定义 的 类 型 ，DISTINCT 类 型 和 结构 类 型 。 

这 两 种 类 型 都 可 以 用 于 作为 一 个 在 基 表 中 定义 列 的 基础 。 

= 在 第 6 章 ， 我 们 说 明了 SQL 也 允许 结构 类 型 特别 是 用 于 作为 定义 成 为 “类 型 表 ” 的 基础 。 

a 在 第 20 章 ， 我 们 说 明了 SQL 也 支持 类 型 继承 的 一 种 形式 ， 虽 然 只 是 支持 结构 类 型 。 

但 是 ， 除 了 这 些 特征 ，SQL 也 支持 (a) 一 个 REF 类 型 生成 子 ? ; (b) 子 表 和 超 表 。 这 些 
额外 的 结构 和 那些 刚刚 提 到 的 结构 (特别 是 和 结构 化 类 型 ) 联系 得 很 紧密 。 他 们 为 什么 应 该 联 
系 得 如 此 紧密 并 不 是 很 清楚 一 一 原由 3 
为 我 们 认为 额外 的 结构 无 论 如 何不 是 很 有 用 ， 正 如 我 们 现在 试图 说 明 的 一 样 。 

1. REF 类 型 

我 们 从 一 个 简单 (忽略 无 关 的 细节 ) 的 例子 开始 : 


CREATE TYPE DEPT TYPE 
AS ( DEPT# CHAR(3), 
DNAME CHAR(25), 
BUDGET MONEY ) 

REF IS SYSTEM GENERATED ; 








CREATE TABLE DEPT OF DEPT TYP 
( REF IS DEPT ID SYSTEM GpheRaggD， 
PRIMARY KEY ( DEPT# ) ) 


解释 (部 分 与 第 6 章 重复 ) : 

1) 首先 从 第 5 章 开始 回顾 。 每 当 我 们 创建 一 个 结构 类 型 ST， 系 统 就 会 自动 地 生成 一 个 相关 
的 参考 (REF) 类 型 称 为 REF (ST); 在 上 例 中 ,参考 类 型 REF (DEPT_TYPE)) 是 自动 生成 
的 。REF 类 型 用 于 所 有 任意 类 型 的 数据 类 型 的 可 以 使 用 的 地 方 ， 但 是 ， 他 们 只 能 非 显 式 地 生成， 
这 是 创建 结构 类 型 的 一 个 副作用 。 

2) 类 型 REF (ST) 的 值 是 在 已 经 被 定义 为 “OF”ST 类 型 的 某 些 基 表 9 里 的 列 的 参考 一 一 
换 句 话说 ， 是 指针 或 地 址 〈 见 第 4 点 )。 在 例子 中 ， 类 型 REF (DEPT_TYPE)) 的 值 是 基 表 
DEPT 中 列 的 指针 。( 我 们 在 这 里 假设 DEPT 是 定义 为 “OF”DEPT_TYPE 类 型 的 唯一 的 表 ， 虽 
然 这 个 假设 并 不 总 是 有 效 。 注 意 : 结构 类 型 5T 当然 可 以 用 于 其 他 上 下 文中 一 一 例如 ， 为 某 些 列 
定义 的 类 型 或 一 些 局 部 变量 -一 但 是 没有 REF (ST) 值 与 那些 其 他 的 使 用 相 联 系 。 





人 REF 在 这 里 代表 reference 的 含义 ， 但 是 REF 与 REFERENCE 特性 无 关 ( 见 第 17 章 ) 或 者 基于 外 人 碍 的 参考 .我 
们 认为 REF 类 型 是 标量 类 型 ， 所 以 我 们 有 --- 个 标量 类 型 生成 子 的 例子 。 
人 或 者 可 能 是 一 些 视图 ， 关 于 视图 情况 的 具体 细节 超出 了 本 书 的 讨论 范围 
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3) 在 一 个 CREATE TYPE 语句 中 声明 REF IS SYSTEM GENERATED 意味 着 与 REF 有 联 
系 的 值 是 由 系统 提供 的 。 (其 他 的 选择 一 一 例如 ，REF IS USER GENERATED 一 一 是 可 用 的 ， 
但 是 这 个 细节 问题 超出 了 本 书 的 范围 ) 注意 : 事实 上 ，REF IS SYSTEM GENERATED 是 系统 
默认 的 ; 因此， 在 我 们 的 例子 中 ,我 们 可 以 从 类 型 DEPT_TYPE 的 定义 中 完全 地 省 略 那 个 声 
明 的 。 

4) 一 个 基 表 可 以 (通过 CREATE TABLE 语句 ) 被 定义 为 “OF” 一 些 结构 类 型 ， 这 桩 的 表 
就 被 称 为 是 一 个 类 型 表 或 是 参考 表 。 关 键 词 OF 在 这 里 并 不 真 的 是 很 合适 ， 但 是 ， 因 为 〈 正 如 第 
6 章 所 解释 的 那样 ) 那个 表 并 不 真正 是 正在 讨论 的 那 种 “OF” 类 型 ， 它 的 列 也 不 是 。 事 实 上 ， 
那个 表 对 正在 讨论 的 那个 结构 类 型 中 的 每 个 属性 有 一 个 列 ， 附 加 上 一 个 列 一 一 即 一 个 可 运用 的 
REF 列 -一 一 虽然 定义 那个 附加 列 的 语法 不 是 通常 的 列 定义 语法 而 是 定义 如 下 : 


REF IS <column name> SYSTEM GENERATED 


这 个 额外 的 “ 自 参 考 ” 列 (起初 它 在 表 的 列 中 是 从 左 到 右 的 顺序 ) 通常 包含 正在 讨论 中 的 
基 表 列 的 唯一 的 ID ( 隐 含 了 UNIQUE 和 NOT NULL 的 声明 ) ， 当 插 人 一 个 列 时 就 给 这 个 列 指定 
一 个 ID， 并 将 这 个 ID 一 直 保留 直到 那个 列 ? 被 删除 为 止 。 

5) 当 一 个 结构 类 型 被 用 于 作为 定义 一 个 基 表 的 基础 时 ， 它 并 不 是 封装 的 〈 即 使 它 在 其 他 的 
上 下 文中 非常 重要 )。 因 此 ， 在 我 们 的 例子 中 ， 基 表 DEPT 有 四 个 列 DEPT _ID, DEPT#，, 
DNAME 和 BUDGET (以 这 个 顺序 ) ， 如 果 DEPT_TYPE 被 封装 ， 它 就 不 仅仅 只 是 两 个 了 。 

6) DEPT_ID 列 的 默认 值 是 NULL (事实 上 ， 它 是 所 有 被 定义 为 REF 类 型 列 的 默认 值 ， 虽 然 
如 果 正 在 讨论 的 列 被 特别 地 指定 为 NOT NULL， 那 个 默认 值 将 不 会 有 太 大 的 意义 。) 

现在 让 我 们 扩展 上 面 的 例子 来 引入 一 个 EMP 基 表 :9 


CREATE TABLE EMP 
( EMP# CHAR(5) NOT NULL, 
ENAME CHAR(25) NOT NULL, 
SALARY MONEY NOT NULL, 
DEPT ID REF ( DEPT TYPE ) SCOPE DEPT 
REFERENCES ARE CHECKED 
ON DELETE CASCADE 
NOT NULL, 
PRIMARY KEY ( EMP# ) ) ; 


通常 地 ， 基 表 EMP 将 包含 一 个 外 码 列 DEPT#， 它 由 部 门 号 来 表示 部 门 。 但 是 ， 在 这 里 ,我 
们 由 一 个 “参考 ” 列 DEPT_ID 一 一 请 注意 ， 它 并 没有 显 式 地 声明 为 一 个 外 码 列 一 一 而 是 由 它们 
的 “参考 ”来 指向 部 分 。SCOPE DEPT 指定 了 可 运用 的 参考 表 。REFERENCES ARE CHECKED 
意味 着 参照 完整 性 将 被 保持 (REFERENCES ARE NOT CHECKED 将 允许 “ 典 基 参 照 ”; 为 什么 
它 将 有 可 能 指定 那个 选项 并 不 清楚 8? ) ON DELETE…… 指 定 一 个 删除 规则 ， 类 似 于 通常 的 外 码 
删除 规则 (支持 同样 的 选择 )。 没 有 相似 的 ON UPDATE 声明 。 

2. 使 用 参照 

我 们 现在 考虑 一 些 样本 查询 且 在 部 门 - 职员 数据 库 上 进行 更 新 。 这 里 首先 是 一 个 查询 “ 找 
到 职员 El 所 在 部 门 的 部 门 号 ”的 SQL 语句 ; 

SELECT DEPT ID -> DEPT# AS DEPT# 


FROM EMP 
WHERE EMP# = 'El' ; 





”在 这 里 看 起 来 像 是 某 个 环 状 : “那个 列 ” 的 意思 可 以 仅仅 是 “那个 正在 讨论 中 的 列 的 特定 的 ID 号 ”， 特 别 地 ， 
注意 那个 值 和 变量 混淆 ! 一 一 如 果 “ 那 个 列 ” 有 一 个 地 址 ， 那 么 它 就 是 一 个 列 变 量 ( 见 26.3 节 ) 

”在 表 EMP 上 指定 NOT NULL 的 声明 。 指 明 在 表 DEPT 的 列 上 不 允许 也 有 空 值 不 是 很 容易 ! 这 个 细节 问题 被 留 作 
一 个 练习 。 

含 REFERENCES 声明 有 可 能 在 SQL: 2003 中 被 加 除 ， 暗 指 (默认 ) REFERENCES ARE NOT CHECKED 将 不 会 总 
是 被 指定 。 
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注意 到 在 SELECT 语句 中 的 解除 参照 操作 符 “ -> ”( 表 达 式 DEPT_ID -> DEPT# 从 DEPT_ 
TO 值 指向 DEPT 列 中 产生 了 DEPT# 值 )? 也 注意 到 指定 一 个 AS 语句 的 需要 ; 如 果 那 个 语句 已 经 
被 省 略 ， 相 应 的 结果 列 将 被 有 效 地 解除 命名 。 最 后 ， 注 意 FORM 语句 的 不 合理 性 一 一 DEPT# 值 
从 DEPT 不 是 EMP 中 被 取 回 , 但 是 DEPT_ID 值 取 自 EMP， 而 不 是 DEPT。 

顺便 提 一 下 ， 我 们 不 能 不 指出 第 一 个 查询 将 可 能 比 它 对 应 的 常规 的 SQL 查询 执行 的 效率 
更 差 。 

(该 查询 只 能 访问 一 个 表 ， 而 不 是 两 个 ) 。 我 们 作 这 样 的 观察 是 因为 有 利于 “参照 ”的 通常 
的 观点 是 它们 应 该 提高 性 能 (“ 使 用 一 个 指针 比 执行 一 个 连接 操作 更 快 " ) 。 当 然 ， 如 此 争论 是 为 
了 混 清 逻辑 的 和 物理 的 问题 。 

作为 另 一 个 例子 。 假 设 原 先 的 查询 是 “找到 职员 El 所 在 的 部 门 〈 而 不 只 是 部 门 号 ) ”现在 
这 个 解除 参照 操作 看 起 来 很 不 一 样 : 

SELECT DEREF ( DEPT ID ) AS DEPT 


FROM EMP 
WHERE EMP# = 'E1l’ 


此 外 ， 这 里 产生 DEREF 调用 。 我 们 期 望 的 不 是 一 个 DEPT 行 值 ， 而 是 一 个 “封装 的 ”标量 
值 。 那 个 值 是 DEPT_TYPE 类 型 且 只 有 三 个 属性 : DEPT#，DNAME 和 BUDGET ( 它 不 包含 一 个 
DEPT_ID 属性 ) 。” 注意 : 为 了 重复 我 们 在 第 6 章 所 作 的 观察 ， 如 果 对 某 个 操作 符 Op 的 某 个 参数 
P 的 声明 类 型 是 DEPT_TYPE， 我 们 不 能 从 表 DEPT 中 传递 一 行 作 为 调用 那个 操作 符 Op 的 一 个 相 
应 的 参数 。 但 是 我 们 现在 可 以 看 到 ， 我 们 可 以 传递 DEREF (DEPT_ID)， 如 果 DEPT_ID 包含 表 
DEPT 的 一 个 行 的 一 个 参照 。 

这 里 是 另外 一 个 例子 :“ 在 部 门 D1 中 找到 职员 的 职员 号 。 


SELECT EMP# 
FROM EMP 
WHERE DEPT ID -> DEPT# = 'D1' ; 


注意 在 这 个 例子 中 的 WHERE 子 句 的 解除 参照 : 


INSERT INTO EMP ( EMP#, DEPT ID ) 
VALUES ( 'ES5', ( SELECT DEPT ID 
FROM DEPT 
WHERE DEPT# = 'D2' ) };} 


这 里 现在 是 一 个 插入 例子 (插入 一 个 职员 ); 
现在 ， 为 我 们 一 直 在 讨论 的 内 容 (REF 类 型 等 ) 的 构造 辩护 的 人 强调 不 需要 关注 这 一 点 ， 
因为 “每 一 件 事 务 都 仅仅 是 速记 的 ”例如 ，SQL 表达 式 : 


SELECT DEPT ID -> DEPT# RS DEPT# 
FROM EMP 
WHERE EMP# = 'El' ; 


(“查找 职员 El 所 在 部 门 的 部 门 号 ”， 我 们 的 第 一 个 例子 在 这 个 子 查询 中 ) 被 声明 如 下 : 


SELECT ( SELECT DEPT# 

FROM DEPT 

WHERE DEPT.DEPT ID = EMP.DEPT_ID ) AS DEPT# 
FROM EMP 
WHERE EMP# = 'El' 





”大 部 分 支持 解除 参照 的 语言 也 支持 一 个 参照 操作 符 ( 例 如， 在 26. 3 节 中 对 PTR_TO 的 讨论 ) ， 但 是 SQL 并 不 支 
持 。 此 外 ， 解 除 参 照 通常 返回 一 个 变量 ， 而 在 SQL 中 它 返 回 一 个 值 。 

加 “这些 属 性 遵循 DEREF 的 语义 一 一 虽然 对 于 大 多 数 的 目的 表 DEPT 的 列 DEPT#，DNAME 和 BUDGET 表现 为 常规 
列 ， 但 系统 也 需要 记得 这 些 列 是 从 结构 类 型 DEPT_TYPE 中 得 到 的 。 换 句 话说 ， 为 了 使 用 第 6 章 的 类 型 术语 和 
标题 ， 我 们 可 以 说 表 DEPT 在 某 个 上 下 文中 有 一 个 包含 四 个 部 分 的 标题 (类 型 也 同样 ) ， 但 是 一 个 标题 (或 类 
型 ) 在 其 他 地 方 就 只 是 带 有 两 个 部 分 。 从 这 一 点 来 看 ， 可 能 “类 型 表 ” 应 该 称 为 分 裂 表 。 
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但 是 事实 上 ， 这 个 声明 并 不 真正 站 得 住 脚 ， 因 为 新 的 语义 一 一 特别 是 对 于 解除 参照 一 一 可 
以 被 只 用 来 关联 已 经 以 一 种 专门 的 新 的 方式 定义 的 数据 ， 并 使 用 一 种 全 新 的 类 型 生成 子 
(REF) 。 此 外 ， 那 些 数 据 定 义 也 使 用 了 许多 新 的 语法 。 同 时 ， 功 能 性 以 一 种 高 的 非 正 交 的 方 
式 被 提供 (在 其 他 东西 中 ， 它 只 运用 到 那些 以 一 种 专门 的 新 的 方式 定义 的 表 ， 而 不 是 所 有 
的 表 )。 

此 外 ， 即 使 我 们 接受 那个 声明 ， 无 论 如 何 我 们 得 问 问 为 什么 提供 那些 简便 (shorthand)。 这 
个 声明 应 该 解决 什么 问题 ? 为 什么 那些 支持 是 非 正 交 的 ?什么 时 候 我 们 应 该 以 那 种 过 时 的 方式 来 
处 理事 情 ， 而 什么 时 候 用 新 的 特别 的 方法 ， 等 等 。 注 意 : 关于 这 一 点 ,参照 [26. 15 ] ， 注 释 参 
照 [26. 21]. 

3. 子 表 和 超 表 

SQL 允许 基 表 8 被 定义 为 基 表 A 的 “ 子 表 ”" ， 当 且 仅 当中 和 4 都 是 “类 型 表 "， 且 在 有 上 
所 定义 的 结构 类 型 STB 是 在 4 上 所 定义 的 结构 类 型 ST4 的 子 类 型 。 考 虑 下 面 的 结构 类 型 定义 
示例 : 

CREATE TYPE EMP TYPE /* employees */ 


AS ( EMP# ..., DEPT# ... ) ... 
REF IS SYSTEM GENERATED ; 


CREATE TYPE PGMR TYPE UNDER EMP TYPE /* programmers */ 
RS ( LANG ... 7 ; 
注意 : PGMR_TYPE 没有 REF IS…… 子 句 ; 而 是 ， 它 从 它 的 直接 的 超 类 EMP_TYPE 中 有 效 
地 继承 了 这 样 一 个 子 句 。 换 名 话说， 类 型 REF (EMP_TYPE) 的 一 个 值 可 以 参照 一 个 表 里 的 一 
个 行 ， 这 个 表 被 定义 为 PGMR_TYPE 类 型 而 不 是 EMP_TYPE 类 型 。 
现在 考虑 下 面 的 基 表 定义 : 


CREATE TABLE EMP OF EMP TYPE 
( REF IS EMP ID SYSTEM GENERATED, 
PRIMARY KEY ( EMP# ) ) ...; 


CREATE TABLE PGMR OF PGMR_ TYPE UNDER EMP ; 


注意 在 基 表 PGMR 的 定义 上 的 声明 UNDER EMP (也 注意 那个 基 表 的 REF IS 和 PRIMARY 
KEY 的 声明 的 缺 省 ) 。 基 表 PGMR 和 EMP 分 别 被 称 为 是 一 个 子 表 和 相应 的 直接 超 表 ; PFMR 继 
承 EMP 的 列 且 加 上 了 它 本 身 的 一 个 额外 的 列 LANG。 在 这 个 例子 下 的 直观 看 法 是 没有 一 个 程序 
员 在 基 表 EMP 中 仅 有 一 个 列 ， 而 程序 员 在 两 个 表 中 都 有 一 个 列 一 一 所 以 在 PGMR 的 每 一 个 行 在 
EMP 中 有 一 个 副本 ， 但 是 反 过 来 不 成 立 。 
在 这 些 表 上 的 数据 处 理 操 作 如 下 : 
sa SELECT: 在 EMP 上 的 SELECT 被 正常 地 处 理 。 在 PGMR 上 的 SELECT 就 像 PGMR 真正 
包含 EMP 和 LANG 中 的 列 一 样 处 理 . 
s INSERT: 在 EMP 上 的 INSERT 被 正常 地 处 理 。 在 PGMR 上 的 INSERT 有 效 地 引入 新 的 行 
以 出 现在 EMP 和 PGMR 中 。 
m DELETE:， 从 EMP 中 DELETE 导致 行 从 EMP 和 PGMR 中 消失 。 从 PGMR 中 DELETE 导 
致 行 从 EMP 和 PGMR 中 消失 。 
s UPDATE: 更 新 LANG， 必 须 通过 PGMR， 只 更 新 PGMR; 更 新 其 他 的 列 ， 要么 通过 
EMP， 要 么 通过 PGMR ， 更 新 两 个 表 (从 概念 上 )。 
特别 注意 下 面 的 隐 含 含义 : 
a 假设 某 个 职员 Joe 是 一 个 程序 员 。 如 果 只 是 简单 地 尝试 把 包含 Joe 的 信息 的 那个 行 插入 到 
PGMR 中 ， 系 统 也 将 尝试 把 包含 Joe 的 信息 的 那个 行 插入 到 EMP 中 一 一 当然 这 个 尝试 会 
失败 。 我 们 应 该 做 的 是 从 EMP 中 删除 包含 Joe 的 信息 的 那个 行 ， 然 后 在 PGMR 中 插入 合 
适 的 行 。 
s 相反 地 ， 假 设 某 个 职员 Joe 不 再 是 一 个 程序 员 。 这 个 时 候 ， 我 们 必须 从 EMP 或 者 PGMR 
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中 删除 包含 Joe 的 信息 的 那个 行 〈 不 管 我 们 指定 哪个 表 ， 结 果 将 是 从 两 个 表 中 删除 它 ) ， 
然后 在 EMP 中 插入 一 个 合适 的 行 。 

一 方面 ， 我 们 注意 到 SQL 提供 一 个 ONLY 特性 ， 这 个 ONLY 特性 允许 我 们 有 效 地 仅 在 一 个 
给 定 的 表 中 的 一 些 行 上 的 操作 ， 这 些 行 在 这 个 给 定 的 表 的 任何 的 子 表 中 不 包含 副本 。 例 如 ，SE- 
LECE * FROM ONLY (EMP) 仪 得 到 在 EMP 在 PGMR 中 没有 副本 的 那些 行 ， 同样 地 ，DE- 
LETE FROM ONLY (EMP) 仅 删 除 在 EMP 在 PGMR 中 没有 副本 的 那些 行 ， 对 于 UPDATE 也 一 
样 (对 于 INSERT 没有 ONLY 特性 ) 。 但 是 ONLY 特性 的 缺点 是 : 对 于 先前 描述 的 问题 ， 即 某 个 
职员 Joe 是 程序 员 或 不 再 是 程序 员 的 问题 ， 没 有 用 。 

那么 刚刚 描述 的 子 表 和 超 表 确 切 地 应 该 怎样 处 理 类 型 继承 呢 ? 问题 的 答案 是 不 能 做 什么 。 因 
为 表 是 没有 类 型 的 ! 一 般 来 说 ， 表 没有 任何 可 代替 性 一 一 我 们 在 第 20 章 解释 说 ， 如 果 我 们 没有 
可 代替 性 ， 那 么 我 们 就 没有 真 的 类 型 继承 。 因 此 ， 如 果子 表 和 和 超 表 提 供 了 一 些 优势 ， 它 一 点 也 不 
清楚 是 为 什么 ， 为 了 得 到 这 些 优 势 ，SQL 需要 根据 类 型 ( 子 类 型 和 直接 超 类 ) 分 别 定义 子 表 和 
直接 的 超 表 。 

更 根本 地 ， 我 们 需要 清楚 那些 优势 在 哪里 ? 子 表 和 超 表 给 我 们 带 来 什么 ? 至 少 是 在 模式 层 ， 这 
个 问题 看 起 来 “非常 小 " ”如 果子 表 和 它 的 超 表 在 物理 上 作为 一 个 单一 的 表 存储 在 磁盘 上 ， 可 能 实 
现 某 个 执行 系统 是 正确 的 ， 但 是 ， 不 应 该 允许 这 样 的 考虑 在 这 样 的 模型 中 起 任何 作用 。 换 句 话 说， 
不 仅仅 是 它 不 清楚 ， 前 一 节 所 注意 的 也 不 清楚 ， 为 什么 “ 子 表 和 超 表 ”必须 依赖 “ 子 结构 类 型 和 超 
结构 类 型 ”的 问题 也 不 清楚 ， 而 且 ， 为 什么 支持 那个 特性 也 是 一 点 不 清楚 。 

4. SQL 和 两 个 根本 性 错误 

我 们 一 直 在 描述 的 那个 SQL 功能 是 怎么 提供 好 的 对 象 / 关 系 支 持 的 ? 如 果 SQL 并 没有 犯 那 
两 个 大 的 错误 ， 它 确实 很 接近 那 两 个 根本 性 错误 。 我 们 必须 说 这 样 做 的 合理 性 是 很 不 清楚 的 ， 至 
少 这 个 作者 认为 是 这 样 的 ; 它 看 起 来 不 仅仅 是 一 个 含糊 的 想法 〈 产 生 那 些 错 误 的 特性 使 SQL 更 
“ 像 对 象 ”) 。 

关于 第 一 个 根本 性 错误 ， 将 类 型 表 和 结构 类 型 结合 的 想法 与 将 表 和 类 等 同 的 想法 有 关 。 更 具 
体 地 说 ， 如 果 类 型 表 7 了 被 定义 为 是 属于 (“OF”) 结构 类 型 ST， 那么 TT 就 应 该 包含 类 型 ST 的 
所 谓 的 “区 域 ” 一 一 即 所 有 当前 存在 的 类 型 ST 的 “实例 ”的 集合 ， 这 似乎 是 可 能 的 。” 和 否则， 
为 什么 TT 和 ST 之 间 有 如 此 紧密 的 联系 ? 

也 就 是 说 ， 会 有 一 些 问题 。 一 个 问题 是 有 可 能 有 一 个 或 多 个 类 型 表 属 于 “OF” 同一 个 结构 
类 型 ， 这 样 类 型 表 的 类 型 的 含义 是 不 明确 的 (除了 他 们 几乎 一 定 会 违反 《 正 交 设计 原理 》) 。 其 
他 的 问题 见 6.6 节 。 

关于 第 二 个 根本 性 错误 ， 应 该 明确 SQL 确定 存在 这 个 〈 并 且 是 主要 的 ) 缺陷 ， 即 使 我 们 
同意 它 的 “参照 ”和 相关 的 特征 正 是 它 的 优势 。 正 如 更 早 注 意 到 的 那样 ， 如 果 行 有 “参照 ” 
(地 址 )， 那 么 那些 行 是 定义 的 行 变量 。 特 别 地 ，SQL 确实 存在 26.3 节 (在 “指针 和 一 个 好 
的 继承 模型 是 不 相 容 的 ” 子 小 节 ) 提 到 的 指针 的 问题 。 这 里 我 们 省 略 了 其 中 的 细节 ， 因 为 它 
们 有 点 零乱 ; 只 是 说 一 个 本 应 该 参照 一 个 包含 圆 的 行 REF 值 事 实 上 可 能 参照 一 个 包含 非 圆 的 
椭圆 的 行 。 

26. 7 小 结 


在 本 章 中 我 们 首先 简要 讨论 了 对 象 /关系 系统 。 这 一 系统 实际 上 就 是 (也 应 该 是 ) 能 很 好 支 
持 关 系 域 ( 即 类 型 ) 概念 的 关系 系统 一 一 这 就 意味 着 用 户 能 够 定义 自己 的 类 型 。 为 了 获得 对 象 
方面 的 功能 ， 我 们 并 不 需要 对 关系 模型 做 任何 改动 (除了 去 实现 它们 )。 





”你 可 能 在 想 答案 与 第 14 章 提 到 的 实体 子 类 和 超 类 有 一 - 些 关 系 。 如 果 这 样 ， 那 么 我 们 提醒 你 记 住 我 们 自己 对 这 个 问 
题 的 比较 满意 的 方法 ， 它 是 基于 视图 的 使 用 。 见 14. 5 节 末 的 例子 。 

但 是 ， 那个 “区 域 ” 并 不 是 自动 维护 的 。 类 型 ST 的 “实例 ”出 现在 表 77 中 或 从 表 77 消失 只 是 由 寺 在 那个 表 
上 的 显 式 的 更 新 。 
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我 们 还 讨论 了 两 个 根本 性 错误 。 第 一 个 错误 是 将 对 象 类 与 关系 变量 等 同 (不 幸 的 是 ， 这 一 
等 式 在 表面 上 极 易 迷 惑 人 ) 。 我 们 猜测 这 一 错误 来 自 对 术语 “对 象 ”两 种 不 同 理解 的 混淆 。 我 们 
通过 一 个 示例 详细 讨论 了 犯 第 一 个 错误 的 系统 将 会 怎样 ， 并 且 解 释 了 这 一 错误 的 部 分 后 果 。 其 中 
一 个 重要 的 后 果 就 是 将 直接 导致 犯 第 二 个 根本 性 错误 ! 一 一 即将 指针 与 关系 相 混 请 〈 当然 不 犯 
第 一 个 错误 的 系统 也 可 能 犯 第 二 个 错误 ， 并 且 目 前 市 场 上 几乎 每 一 个 产品 都 犯 有 这 一 错误 \ 我 
们 认为 ， 第 二 个 根本 性 错误 在 许多 方面 削弱 了 关系 模型 的 概念 完整 性 。 具 体 来 说 ， 它 破坏 了 基本 
关系 与 导出 关系 之 间 的 可 交换 性 原则 。 

接 下 来 ， 我 们 又 简要 讨论 了 实现 上 存在 的 问题 。 基 本 考虑 是 加 入 新 的 “类 型 包 ” 将 至 少 影 
响 系 统 中 编译 器 、 优 化 器 和 存储 管理 的 设计 。 结 论 是 ， 对 象 /关系 系统 不 能 通过 在 关系 系统 之 上 
包装 一 层 的 方法 来 实现 ; 系统 需要 从 底层 开始 重建 ， 以 使 每 一 部 分 具备 必要 的 可 扩展 性 。 

最 后 ， 我 们 介绍 了 Stonebraker 的 DBMS 分 类 矩阵， 并 简要 讨论 了 将 对 象 与 关系 技术 真正 融 
合 所 能 产生 的 好 处 (这 里 “真正 的 ”一 词 是 指 系统 不 犯 任何 一 个 根本 性 错误 )。 最 后 ， 我 们 检查 
了 SQL 对 REF 类 型 以 及 子 表 和 超 表 的 支持 。 
习题 
26.1 定义 术语 对 象 /关系 ， 什 么 是 “对 象 /关系 模型 "? 

26.2 下 面 是 在 26. 3 节 使 用 的 代码 中 的 一 个 变量 来 说 明 指针 和 一 个 好 的 继承 模型 是 不 相 容 的 : 

VAR E ELLIPSE ; 


VAR XE PTR_TO ELLIPSE ; 
VAR XC PTR TO CIRCLE ; 


E := CIRCLE ( LENGTH ( 5.0 ), POINT ( 0.0, 0.0 ) ); 
XE := PTR TO(E),; 

XC := TREAT DOWN AS PTR TO CIRCLE ( XE ) ; 

THE A ( DEREF ( XE ) 了 := LENGTH ( 6.0 ) ; 


当 执 行 这 段 代码 会 怎么 样 ? 注意 : 这 里 的 DEREF 是 传统 的 解除 参照 操作 ， 而 不 是 同名 的 SQL 

操作 (假设 一 个 变量 的 地 址 ， 它 返回 那个 变量 ) 。 

26.3” 接 第 26.2 题 : 如 果 用 外 码 代替 指针 ， 为 什么 不 会 引起 类 似 的 问题 ? 或 者 说 是 否 会 引起 类 似 的 
问题 ? 

26.4 ”你 是 否认 为 SQL 的 结构 类 型 是 封装 的 ? 证 明 你 的 答案 是 正确 的 。 

26.5 在 SQL 中， 声明 一 个 REF 类 型 的 局 部 变量 是 否 有 意义 ? 如 果 有 ， 是 什么 意义 呢 ? 

26.6 给 出 练习 26. 2 节 的 一 个 SQL 版 本 。 注 意 : 你 将 可 能 需要 访问 SQL 标准 或 一 个 SQL 产品 的 文档 。 

26.7 ”研究 任何 一 个 对 你 有 用 的 对 象 /关系 DBMS ， 那 个 系统 是 否 有 犯 那 两 个 大 的 错误 ? 如 果 有 ， 是 什么 原 
因 导 致 它 犯 这 样 的 错误 ? 

26.8 ”解释 子 表 和 超 表 的 概念 :(a) 以 概括 性 方式 ; (b) 以 SQL 方式 。 
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son, Ariz. (May 1997 ) . 

文中 写 到 : “抽象 数据 类 型 、 用 户 定义 函数 、 元 组 类 型 、 参 照 、 继 承 、 子 表 、 集 合 、 触 发 
器 ， 所 有 这 些 到 底 是 什么 ?” 好 问题 ! 可 以 看 到 ， 这 里 列 出 了 8 个 特性 (假设 默认 它们 都 是 
SQL3 中 的 特性 ) 。 在 这 8 个 特性 中 ， 至 少 有 4 个 是 我 们 不 希望 看 到 的 ， 有 两 个 几乎 是 同一 事物 ， 
而 另 两 个 与 系统 是 否 是 对 象 / 关 系 系统 无 关 。( 详 见 附录 B) 

Michael J Carey et al. :“ The BUCKY Object/Relational Benchmark,” Proc. 1997 ACM SIGMOD 
Int. Conf. on Management of Data, Tucson, Ariz. (May 1997). 

在 其 摘要 中 提 到 :“BUCKY (通用 或 复杂 的 Kwery Ynterfaces 标准 测试 ) 是 一 个 面向 查询 的 
标准 测试 ， 测 试 了 许多 对 象 /关系 系统 的 主要 特性 ， 包 括 行 类 型 与 继承 、 参 照 与 路 径 表 达 式 、 原 子 
值 集合 与 参照 集合 、 方 法 与 延迟 绑 定 以 及 用 户 定义 抽象 数据 类 型 与 用 户 定义 方法 。” 注意 : 关于 
“关键 的 特性 ”， 参 考 文献 [26.4] 的 注释 。 

Michael Carey et al. :“O - O, What Have They Done to DB2?” Proc. 25th Int. Conf. on VLDB® ,Edin- 
burgh, Scotland( September 1999). 

对 DB2 的 对 象 /关系 特征 的 概观 。 也 可 以 参照 [26. 1] [26.4] 和 [26.11]。 

R. G. G. Cattell “ What Are Next - Generation DB Systems?” CACM 34, No. 10 (October 1991). 
Donald D. Chamberlin.” Relations and References 一 Another Point of View,” InfoDB 10, No.6 (April 
1997). 

见 [26. 15] 中 的 注释 。 

Surajit Chaudhuri and Luis Gravano : “Optimizing Queries over Multi-media Repositories ， Proc. 1996 
ACM SIGMOD Int Conf. on Management of Data, Montreal, Canada ( June 1996 ) . 
对 象 /关系 数据 库 可 以 充当 “多 媒体 仓库 ”。 多 媒体 数据 查询 的 结果 一 般 不 仅仅 是 结果 对 象 

合 ， 还 包括 对 象 与 查询 条 件 的 匹配 程度 (例如 某 一 图 片 红 的 程度 ) 。 在 查询 中 既 可 以 设 定 匹配 
度 的 最 低 要 求 ， 也 可 以 设 定 结果 的 限额 [7.5] 。 论 文中 考虑 了 对 于 这 类 查询 的 优化 ， 也 可 以 参 
考 [26.2]。 
Surajit Chaudhuri and Kyuseok Shim : “Optimization of Queries with User ~ Defined Predicates,” ACM 
TODS 24, No. 2( June 1999 ) 。 
也 可 以 参考 [26. 26] ,[26.35]。 
Weidong Chen et al.“ High Level Indexing of User-Defined Types,” Proc. 25th Int. Conf. on VLDB, 
Edinburgh , Scotland ( September 1999 ) . 

解释 了 DB2 使 用 的 一 些 有 效 技术 。 

E. F. Codd and C. J. Date:“ Interactive Support for Nonprogrammers: The Relational and Network Ap- 
proaches, ”in C. J. Date, Relational Database: Selected Writings. Reading, Mass. : Addison Wesley 
(1986). 

论文 中 介绍 了 关于 本 质 性 的 思想 ， 这 一 概念 对 于 正确 理解 数据 模型 (包括 术语 的 两 种 意 
义 ， 见 1.3 节 ) 是 非常 重要 的 。 关 系 模型 只 有 唯一 的 本 质数 
据 结构 ， 即 关系 本 身 。 相 反 ， 对 象 模型 却 有 许多 本 质数 据 结 
构 ， 如 集合 、 无 序 单元 组 、 列 表 、 数 组 ， 等 等 〈 尚未 提 到 对 
象 DD)。 参 考 文献 [26. 13，26. 14] 和 [26.17] 对 此 有 进 一 
步 的 解释 。 

C. J. Date:“ Support for the Conceptual Schema: The Relational and 
Network Approaches,” in Relational Database Writings 1985 - 
1989. Reading, Mass. ; Addison ~ Wesley (1990). 

这 篇 论文 反对 将 指针 与 关系 相 混 淆 [26. 15] 的 一 个 论据 是 指针 的 复杂 性 。 文 中 通过 一 个 示 
例 清 楚 地 表明 了 这 一 观点 〈 见 图 26-5 与 图 26-6) 。 

C.J. Date;“ Essentiality ,”in Relational Database Writings 1991 - 1994. Reading, Mass. : Addison — 
Wesley (1995). 

C.J. Date: “Don’ t Mix Pointers and Relations!” and “Don’ t Mix Pointers and Relations— Please!” 
both in C.J. Date, Hugh Darwen, and David McGoveran, Relational Database Writings 1994 - 





图 26-5 材料 单 关系 





吕 ” VLDB 一 -Very Large Data Bases。 一 一 编者 注 
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[26. 16 j 


[26. 17 ] 
[26. 18 ] 


[26. 19] 


[26. 20] 


[26.21] 


入 六 部 分 ”对象 、 尖 系 和 和 XML 


1997. Reading, Mass. : Addison ~ Wesley (1998). 

这 两 篇 论文 的 第 一 篇 强烈 批评 了 第 二 个 根本 性 错误 。 在 【26.8] 中 ，Chamberlin 驶 斥 了 第 
一 篇 论文 的 观点 ， 第 二 篇 论文 是 对 Chamberlin 所 驶 斥 内 容 的 直接 回应 。 
C. 1. Date: “Objects and Relations: Forty - Seven Points of Light,”in C.J. Date, Hugh Darwen, and 
David McGoveran, Relational Database Writings 1994 - 1997. Reading, Mass. : Addison - Wesley 
(1998 ). 





图 26-6 26-5 中 内 容 基 于 指针 后 的 情形 
这 篇 文章 对 文献 [26. 27] 做 了 极为 详细 的 答复 。 
C. J Date:“ Relational Really Is Different,” Chapter 10 of reference[ 6.9] 
C.J Date: “What Do You Mean ' Post - Relational’ ?” http://www. dbdebunk. com( June 2000) 

在 文献 中 经 常 遇 上 术语 “传递 关系 ” ( post - relational) 。 它 可 能 是 或 者 可 能 不 是 对 象 / 
关系 。 

Linda G. DeMichiel ，Donald D. Chamberlin, Bruce G. Lindsay, Rakesh Agrawal，and Manish Arya: 
“Polyflot: Extensions to Relational Databases for Sharable Types and Functions in a MultiLanguage Envi- 
ronment,” IBM Research Report RJ8888 (July 1992 ) . 

在 其 摘要 中 提 到 ;“Polyglot 系统 是 一 个 可 扩充 关系 数据 库 类 型 的 系统 ， 它 支持 继承 、 封 装 
和 动态 方法 调度 ”( “动态 方法 调度 ”为 “运行 中 绑 定 ”的 另 一 个 术语 ) 。“Polyglot 系统 允许 使 
用 不 同 的 应 用 语言 ， 同 时 还 允许 对 象 在 跨越 数据 库 与 应 用 程序 的 边界 时 保持 其 自身 的 行为 。 这 
篇 论文 描述 了 Polyglot 系统 的 设计 ， 为 了 支持 Polyglot 中 的 类 型 与 方法 而 对 SQL 语言 所 做 的 扩充 
以 及 Polyglot 系统 在 Starburst 关系 原型 中 的 实现 。” 

Polyglot 系统 涉及 了 本 章 中 (包括 第 5、20、25 章 ) 所 所 到 的 所 有 问题 。 然 而 ， 还 有 两 点 需 
要 提出 。 第 一 ， 系 统 中 没有 提 到 关系 术语 “ 域 ”( 令 人 奇怪 )。 第 二 ，Polyglot 系统 为 类 型 生成 
子 《在 Polyglot 中 称 为 元 类 型 ) 提供 了 基 类 型 、 元 组 类 型 、 重 命名 类 型 、 数 组 类 型 和 语言 类 型 ， 
瞧 独 没有 关系 类 型 (同样 令 人 奇怪 ) 。 当 然 ， 系 统 允 许 引 入 新 的 类 型 生成 子 。 

David J. DeWitt, Navin Kabra, Jun Luo, Jignesh M. Patel, and Jie - Bing Yu: “Client - Server Para- 
dise,” Proc. 20th Int Conf on Very Large Data Bases, Santiago, Chile ( September 1994). 

Paradise 系统 一 一 “并 行 数据 信息 系统 ”一 一 是 威斯康星 大 学 设计 的 对 象 / 关 系 (原先 称 为 
“扩展 关系 ”) 原型 ， 其 处 理 对 象 为 GIS (地 理 信息 系统 ) 方面 的 应 用 。 文 中 描述 了 Paradise 系 
统 的 设计 与 实现 。 

Andrew Eisenberg and Jim Melton; “SQL :1999 , Formerly Known as SQL3,” ACM SIGMOD Record 
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[26. 22 ] 


[26. 23 ] 


[26. 24 ] 


[26. 25] 


[26. 26] 


[26. 27] 


[26. 28 ] 


28 ,No. 1 ( March 1999). 

概述 了 SQL: 1992 与 SQL: 1999 之 间 的 不 同 。 姿 巧 的 是 ， 当 这 篇 文章 第 一 次 发 表 ，Hugh 
Darwen 和 现在 的 作者 写 给 SIGMOD Record 的 编辑 如 下 内 容 : 参照 这 篇 文章 一 一 特别 地 ， 参 照 标 
题 为 “对 象 …… 最 后 ”与 “使 用 REF 类 型 ”的 章节 一 一 我 们 提出 一 个 问题 : 在 这 些 章节 中 描述 
的 那些 特征 有 什么 作用 ? 更 具体 地 说 ， 除 了 从 SQL: 1992 能 够 得 到 的 那个 特征 之 外 ， 还 能 提供 
哪些 有 用 的 功能 。 这 封 信 并 没有 发 表 。 

Michael Godfrey, Tobias Mayr, Praveen Seshadri, and Thorsten von Eichen: “ Secure and Portable Da- 
tabase Extensibility,” Proc. 1998 ACM SIGMOD Int. Conf on Management of Data, Seattle, Wash. 
(June 1998 ) . 

“自从 不 安全 的 客户 端 支持 了 用 户 定义 运算 符 后 ，DBMS 必须 明白 这 些 操 作 符 可 能 破坏 系 
统 ， 直 接 修改 文件 和 存储 器 中 的 内 容 〈 避 开 权 限 管理 机 制 ) ， 独 占 CPU、 内 存 或 磁盘 资源 " 。 控 
制 显然 是 必要 的 。 这 篇 论文 通过 Java 和 对 象 /关系 原型 PREDATOR [26. 33] 探讨 了 这 一 问题 。 
其 结论 是 乐观 的 ， 认 为 数据 库 系统 :“ 通 过 使 用 Java， 在 不 大 规模 牺牲 性 能 的 前 提 下 能 够 支持 安 
全 通用 的 可 扩展 性 ”。 

Laura M. Haas, J. C. Freytag, G. M. Lohman, and Hamid Pirahesh. “ Extensible Query Processing in 
Starburst ,” Proc. 1989 ACM SIGMOD Int. Conf. on Management of Data, Portland, Ore. (June 1989 ) . 

在 论文 [26. 29] 中 写 道 :“ Starburst 系统 提供 以 下 支持 : 在 表 中 加 入 新 的 存储 方法 、 提 
供 对 新 类 型 的 访问 方法 和 完整 性 约束 、 提 供 新 的 数据 类 型 与 函数 、 在 表 中 提供 新 的 操作 符 ”。 
而 在 这 之 后 ，Starburst 系统 的 目标 又 有 所 扩充 。 系 统 被 分 为 两 大 部 分 ，Core 和 Corona， 分别 对 
应 于 系统 RR 中 的 RSS 和 RDS ( [4.2] 和 [4.3] 中 对 系统 R 的 两 个 部 分 做 了 说 明 ) 。Core 支 
持 文献 【26. 29] 中 所 描述 的 可 扩展 性 洋 数 ; 而 Corona 支持 Starburst 系统 的 查询 语言 Hydro- 
gen， 这 一 查询 语言 是 SQL 语言 的 变种 ， 它 (a) 取消 了 系统 R 的 SQL 语言 中 大 部 分 实现 上 的 
限制 ; (b) 比 系统 R 的 SQL 语言 更 具有 独立 性 ; (c) 支持 递归 查询 ; (d) 对 于 用 户 可 扩展 。 
这 篇 论文 还 包括 了 对 “查询 重 写 ” 一 一 即 表达 式 转换 规则 一 一 问题 的 讨论 (参考 第 18 章 ) 。 
参见 参考 文献 [18. 48 ] 。 

Joseph M. Hellerstein and Jeffrey F. Naughton: “Query Execution Techniques for Caching Expensive 
Methods ,”Proc. 1996 ACM SIGMOD Int Conf on Management of Data, Montreal, Canada ( June 
1996 ) . 
Intemational Organization for Standardization( ISO) : Information Technology—Database Languages— 
SOL Multimedia and Application Packages, Document ISO/IEC 13249 :2000. 

官方 的 SQL/MM 标准 的 定义 。 这 些 定义 以 【4. 23] SQL 标准 为 基础 ， 由 一 个 没有 固定 限 
度 的 分 离 部 分 的 系列 (ISO/IEC 13249 -1，~2，etc. ) 本 文 定义 了 下 面 的 6 部 分 : 

第 一 部 分 : 结构 

第 二 部 分 : 全 文 

第 三 部 分 : 空间 

第 四 部 分 : 没有 第 四 部 分 

第 五 部 分 : 静态 镜像 

第 六 部 分 : 数据 挖掘 
Michael Jaedicke and Bernhard Mitaschang ;“User - Defined Table Operators: Enhancing Extensibility 
for ORDBMS” , Proc. 25th Int. Conf on VLDB ,Edinburgh ，Scotland( September 1999 ) ， 

Won Kim:“On Marrying Relations and Objects : Relation-Centric and Object-Centric Perspectives. ” 
Data Base Newsletter 22，No. 6 (November/ December 1994 ) . 

这 篇 论文 论证 了 将 关系 变量 与 类 相等 同 观 点 是 第 一 个 根本 性 锻 误 。 参 考 文献 [26. 16] 是 对 此 
的 一 个 回答 。 

Won Kim.: “Bringing Object/Relational Down to Earth,” DBP&D 10, No.7 (July 1997). 

在 这 篇 文章 中 ，Kim 称 在 对 象 / 关 系 产 品 市 场 上 “整体 上 很 混乱 ”， 因 为 : 首先 , “将 考虑 
重点 过 分 放 在 数据 类 型 扩展 上 ”; 第 二 , “对 于 对 象 /关系 完整 性 的 评价 …… 处 于 非常 混乱 的 地 
步 "。 他 进而 提出 “一 套 可 用 来 判断 对 象 / 关 系 产品 是 否 具备 完整 性 的 实用 化 度量 。 在 他 的 评价 
模式 中 涉及 下 列 标准 : 
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[26. 29] 


[26. 30] 


[26. 31] 


[26. 32] 


[26. 33] 


[26. 34] 


[26. 35 ] 


[26. 36] 





[26. 37 ] 


[26. 38] 


筑 六 闻 分 对象、 关系 和 XML 


1) 数据 模型 4) 可 计算 模型 6) 数据 库 工具 
2) 查询 语 富 5) 性 能 与 可 伸缩 性 7) 能 力 的 发 挥 
3) 关键 任务 服务 


关于 第 一 条 标准 (最 重要 的 标准 !) ，Kim 的 观点 为 一 一 与 《第 三 次 宣言 》[3.3] 中 的 观点 
完全 不 同一 一 数据 模型 必须 是 “对 象 管理 组 (OMG) 定义 的 核心 对 象 模型 "， 由 “关系 数据 模 
型 和 面向 对 象 编程 语言 中 核心 的 面向 对 象 模型 两 者 的 概念 构成 ” 。 根 据 Kim 的 观点 ， 数 据 模型 包 
含 下 列 概念 : 类 (Kim 加 入 了 “或 类 型 ")、 实 例 、 属 性 、 完 整 性 约束 、 对 象 DD、 封装 、 (多 ) 
类 继承 、( 多 ) ADT 继承 、 类 型 参照 的 数据 、 集 合 值 属性 、 类 属性 、 类 方法 ， 等 等 。 注 意 : 关 
系 一 一 我 们 认为 这 是 最 关键 也 是 最 基本 的 概念 一 一 并 没有 被 明确 提出 ; Kim 称 OMG 的 核心 对 象 
模型 除 上 面 列 出 的 概念 外 还 包含 有 整个 关系 模型 ， 但 事实 上 并 不 是 这 样 。 
Bruce Lindsay. John McPherson, and Hamid Pirahesh :“A Data Management Extension Architecture ,” 
Proc. 1987 ACM SIGMOD Int. Conf. on Management of Data, San Francisco, Calif. (May 1987 ) . 

描述 了 Starburst 原型 系统 的 整个 体系 结构 。Starburst 系统 “使 关系 数据 库 系 统 在 数据 管理 
方面 的 扩展 实现 起 来 更 为 方便 " 。 在 论文 中 描述 了 两 类 扩展 : 用 户 定 义 的 存储 结构 和 访问 方 
法 ; 用 户 定义 的 完整 性 约束 〈 但 所 有 的 完整 性 约束 不 都 是 用 户 定义 的 吗 ?) 和 触发 过 程 。 然 
而 ,“ 还 有 其 他 一 些 能 够 扩展 DBMS 的 重要 方面 ， 包 括 用 户 定义 …… 数据 类 型 和 查询 评价 
Guy M. Lohman et al. :“Extensions to Starburst: Objects, Types, Functions, and Rules, “ CACM 34, 
No. 10 ( October 1991). 
David Maier. “ Comments on the Third - Generation Database System Manifesto,” Tech. Report No. 
CS/E 91 -012, Oregon Graduate Center, Beaverton, Ore. ( April 1991 ) . 

Maier 对 文献 [26. 44] 中 的 每 项 内 容 几 乎 都 持 反对 观点 。 我 们 赞成 他 的 一 些 批评 意见 ， 但 
也 不 赞成 男 外 一 些 。 然 而 ， 我 们 对 下 述评 论 (其 证 实 了 我 们 所 提出 的 ， 对 象 系统 只 涉及 一 个 优 
秀 思想 ， 即 适当 的 数据 类 型 支持 ) 很 感 兴趣 :“ 在 面向 对 象 数据 库 领 域 ， 大 部 分 人 都 试图 提取 出 
数据 库 “ 面向 对 象 ” 的 本 质 ……。 我 个 人 对 OODB 最 重要 特性 到 底 是 什么 这 一 认识 也 在 随 着 时 
间 的 变化 而 不 断 变化 。 一 开始 我 认为 是 继承 和 消息 模型 ， 后 来 我 又 认为 对 象 标识 ， 对 复杂 声明 
的 支持 及 行为 上 的 封装 更 为 重要 。 如 今 ， 在 听取 了 OODBMS 用 户 关于 他 们 对 系统 中 哪 部 分 最 为 
满意 的 意见 后 ， 我 认为 类 型 的 可 扩展 才 是 关键 。 标 识 、 复 合 态 和 封装 也 很 重要 ， 但 这 些 只 有 在 
系统 能 够 支持 新 数据 类 型 的 创建 之 后 才 是 重要 的 ”。 
Jim Melton: Advanced SQL: 1999—Understanding Object - Relational and Other Advanced Fea- 
tures. San Francisco, Calif: Morgan Kaufmann( 2003 ) . 

26. 6 节 讨 论 的 关于 SQL 话题 的 教程 和 其 他 “高 级 的 ”的 SQL 的 特征 ， 包 括 SQL/MED 
( 见 第 21 章 )，SQL/OLAP ( 见 第 22 章 ) 和 独立 标准 SQL/MM [26. 25]。 
Jignesh Patel et al : “ Building a Scalable Geo - Spatial DBMS : Technology, Implementation, and 
Evaluation,” Proc. 1997 ACM SIGMOD Int. Conf. on Management of Data, Tucson, Ariz. ( May 
1997 ). 

本 文 的 摘要 中 提 到 :“ 这 篇 论文 在 地 理 空间 数据 库 的 并 行 化 方面 提出 了 一 些 新 的 技术 ， 同 时 
讨论 了 这 些 技术 在 Paradise 对 象 /关系 数据 库 系 统 中 的 实现 ”。[ 26. 20] 
Raghu Ramakrishnan and Johannes Gehrke: Database Management Systems (3d ed ). Boston ，Mass. : 
McGraw - Hill (2003 ). 
Karthikeyan Ramasamy ,Jignesh M. Patel , Jeffrey F. Naughton, and Raghav Kaushik : “Set Containment 
Joins: The Good, the Bad, and the Ugly, “Proc. 26th Int. Conf. on VLDB, Cairo, Egypt ( September 
2000 ) . 
Lawrence A. Rowe and Michael R. Stonebraker: “The Postgres Data Model，“Proc. 13th Int. Conf. on 
Very Large Data Bases Brighton, UK (September 1987). 
Hanan Samet: The Design and Analysis of Spatial Data Structures. Reading, Mass. : AddisonWesley 
(1990). 
Cynthia Maro Saracco: Universal Database Management: A Guide to Object/Relational Technology. 
San Francisco, Calif. : Morgan Kaufmann (1999). 

本 书 是 一 本 易 读 的 高 层次 概论 书籍 。 然 而 ， 我们 注意 到 Saracco 支持 (与 Stonebraker 在 文 
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[26. 40] 


[26. 41] 
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[26. 43] 


[26.44] 
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献 [26. 41] 中 的 观点 正好 相似 ) 一 种 非常 不 可 靠 的 继承 形式 ， 此 形式 涉及 子 表 与 超 表 思想 的 某 
种 版 本 一 一 我 们 在 【14. 13] 一 开始 就 对 此 版 本 持 怀疑 态度 ， 但 该 版 本 又 与 SQL3 中 的 版 本 完全 
不 同 。 具 体 来 说 ， 假 设 表 PGMR (“程序 员 ”) 被 定义 为 表 EMP (“雇员 ”) 的 子 表 。 对 此 Sarac- 
co 和 Stonebraker 认为 EMP 只 包含 那些 不 是 程序 员 的 雇员 信息 的 元 组 ， 而 SQL3 认为 EMP 包含 
所 有 雇员 信息 的 元 组 (参见 26.6 节 )。 

Praveen Seshadri and Mark Paskin: “PREDATOR: An OR - DBMS with Enhanced Data Types. ” 
Proc. 1997 ACM SIGMOD Int. Conf. on Management of Data, Tucson, Ariz. ( May 1997). 

“PREDATOR 系统 的 基本 思想 是 为 每 个 数据 类 型 提供 机 制 以 确定 其 相关 方法 的 语义 ; 这 些 
语义 在 查询 优化 中 将 会 用 到 。"” 

Michael Stonebraker: “ The Design of the Postgres Storage System,” Proc. 13th Int. Conf. on VLDB, 
Brighton, UK (September 1987 ) . 

Michael Stonebraker and Paul Brown (with Dorothy Moore ) : Object/Relational DBMSs: Tracking the 
Next Great Wave (2d ed). San Francisco, Calif. : Morgan Kaufmann (1999 ) . 

本 书 是 对 象 /关系 系统 的 指南 。 它 主要 一 一 事实 上 ， 几 乎 毫 无 例外 一 一 基于 Informix 的 动态 
服务 产品 的 通用 数据 选 件 。 通 用 数据 选 件 基于 早期 的 Hiustra 系统 (一 个 商业 化 产品 ，Stonebrak- 
er 本 人 推动 了 这 个 产品 的 发 展 ) 。 在 参考 文献 [3.3j 中 有 对 此 书 的 分 析 和 批评 ; 还 可 以 参见 文 
献 [26.38] 中 的 评论 。 

Michael Stonebraker and Greg Kemnitz: “ The Postgres Next Generation Database Management 
System. ”CA4CM 34, No. 10 (October 1991 ) . 

Michael Stonebraker and Lawrence A. Rowe: “The Design of Postgres,” Proc. 1986 ACM SIGMOD 
Int. Conf. on Management of Data, Washington, DC (June 1986). 

Postgres 系统 声明 的 目标 有 : 

1) 为 复杂 对 象 提 供 更 好 的 支持 ; 

2) 提供 数据 类 型 、 操 作 符 和 访问 方法 的 用 户 可 扩展 性 ; 

3) 提供 活动 数据 库 工具 (警告 器 和 触发 器 ) 和 接口 支持 ; 

4) 简化 DBMS 关于 系统 恢复 的 代码 ; 

5) 能 够 利用 光盘 、 多 处 理 器 工作 站 和 定制 的 VLSI 芯片 的 良好 特性 ; 

6) 对 关系 模型 做 尽 可 能 少 的 改动 (最 好 不 改动 ) 。 

Michael Stonebraker et al. : “ Third ~ Generation Database System Manifesto,” ACM SIGMOD Record 
19, No. 3 (September 1990 ) . 

这 篇 文章 部 分 是 为 了 回答 《面向 对 象 数据 库 系统 宣言 》 [20.2，25.1] 中 的 内 容 ， 认 为 它 
在 本 质 上 忽略 了 整个 关系 模型 。 文 中 称 :“ 第 二 代 系 统 在 两 个 方面 做 出 了 重大 贡献 ;一 是 非 过 程 
化 数据 访问 ， 另 一 是 数据 独立 性 ， 这 两 个 优点 绝 不 应 该 在 第 三 代 系 统 中 受到 损害 ” 。 下 列 特性 被 
认为 是 第 三 代 DBMS 的 本 质 要 求 

1) 提供 传统 数据 库 服务 ， 并 加 入 更 丰富 的 对 象 结构 和 规则 

sn 丰富 的 类 型 系统 

@ 继承 

E 函数 和 封装 

@ 可 选择 的 由 系统 分 配 的 元 组 ID 

@ 不 针对 特定 对 象 的 各 项 规则 ( 如 完整 性 规则 ) 

2) 包含 第 二 代 DBMS 

@ 只 在 万 不 得 已 的 情况 下 才 使 用 导航 

@ 集合 的 内 涵 和 外 延 定义 〈 即 由 系统 自动 维护 的 集合 与 由 用 户 手 工 维护 的 集合 ) 

a 可 更 新 的 视图 

mw 聚集 、 索 引 等 对 用 户 不 可 见 

3) 支持 开放 系统 

se 多 语言 支持 

8 类 型 的 持续 无 关 性 

m SQL (作为 通用 的 数据 语言 ) 

@ 查询 及 相应 结果 必须 处 于 客户 /服务 器 通信 的 最 底层 
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参考 文献 [3.3] 和 [26.31] 对 这 篇 文章 进行 了 分 析 和 批评 。 

[26.45] Haixun Wang and Carlo Zaniolo "Using SQL to Build New Aggregates and Extenders for Object - Re- 
lational System , ”Proc. 26th Int Conf. on VLDB ,Cairo ,Egypt( September 2000 ) . 

[26. 46] Maurice V. Wilkes:“Software and the Programmer,” CACM 34, No.5 (May 1991 ) . 





第 27 章 互联 网 与 XML 


27.1 引言 


注 : 本 章 最 初 的 作者 是 IBM 的 Nick Tindall。 

互联 网 和 XML 都 是 现在 的 热门 话题 ， 现 在 已 经 有 很 多 介绍 这 两 个 方面 的 书 ， 并 且 在 可 预见 
的 将 来 还 会 有 更 多 相关 的 书 出 现 。 当 然 ， 本 书 有 关 的 内 容 都 是 和 数据 库 特 殊 相 关 的 。 同 时 ， 在 与 
这 个 大 前 提 不 太 相关 的 Web 或 者 XML 的 一 些 方面 的 知识 上 ， 我 们 不 打算 花 太 多 的 笔 黑 详 述 。 对 
于 Web 的 情况 ， 其 与 后 面 章节 中 密切 相关 部 分 我 们 给 出 了 详细 足够 的 背景 ( 见 27.2 节 ) ， 但 是 
在 其 他 方面 则 较 少 涉及 。 对 于 XML 来 说 ， 有 更 多 的 内 容 需 要 讨论 ， 因 此 我 们 花 了 整整 三 节 用 于 
解释 相关 知识 : 27. 3 节 给 出 了 XML 的 一 个 总 体 概述 ，27. 4 和 27.5 节 包 括 了 XML 的 数据 定义 和 
XML 数据 的 操作 。 在 27. 6 节 我 们 分 析 了 XML 和 数据 库 之 间 的 关系 。 当 然 ， 后 面 的 主题 才 是 我 
们 引入 了 这 章 的 主要 目的 一 一 不 过 在 27.6 节 之 前 我 们 暂 不 做 讨论 。 最 后 ， 在 27.7 节 中 我 们 描述 
了 关联 SQL 程序 ， 在 27. 8 节 中 总 结 这 一 章 。 


27.2 万 维 网 和 因特网 


在 通常 的 用 法 当中 ，Web 和 Intemet 这 两 个 词 似乎 是 可 以 通用 和 相互 交换 的 ， 但 是 从 严格 意 
义 上 来 说 他 们 所 指 的 是 不 同 的 东西 。 它 们 之 间 的 区 别 可 以 描述 如 下 : Web 是 一 个 庞大 的 数据 库 
(尽管 没有 传统 数据 库 原 理 中 关于 一 致 性 的 设计 ) ; Intemet 同样 是 一 个 庞大 的 网 络 ， 不同 的 数据 
库 则 分 布 在 这 个 网 络 之 上 。 注 意 : 你 们 可 能 也 知道 ， 对 网 络 的 访问 并 不 只 包括 由 Internet 提供 的 
服务 ( 比如， 新 闻 阅 读 、 远 程 消 息 、e-mail 、ftp 、telnet， 等 等 ) ， 这 些 服 务 并 不 是 我 们 主要 关注 
的 方面 。 本 书 的 目的 不 是 讨论 新 闻 阅 读 、 远 程 消 息 ， 以 及 其 他 的 这 些 方面 的 技术 细节 。 
Internet 是 从 Arpanet 发 展 而 来 的 。Arpanet 是 20 世纪 60 年 代 后 期 由 美国 国防 部 高 级 研究 项 
目 代 理 (DARPA) 沈 助 的 一 个 研究 项 目 ， 这 个 网 络 的 目的 是 用 一 种 通用 的 通信 协议 TCP/IP 
(Transmission Control Protocol/ Internet Protocol) 来 连接 美国 所 有 的 不 同 的 政府 网 络 和 科研 网 络 ， 
使 得 所 有 这 些 网 络 可 以 连接 成 为 一 个 一 致 的 “超级 网 络 ”。 但 是 这 样 的 Intemet (比如 ,没有 
Web) 还 是 没有 集成 到 原先 预想 的 地 步 ; 用 户 还 是 必须 是 同 不 同 的 机 制 一 一 ftp，gopher ，archie， 
不 同 种 类 的 e-mail ， 等 等 一 一 去 获取 Intemet 上 的 信息 。 比 如 ， 如 果 你 想 要 查看 在 一 些 文 档 中 找 
到 的 引用 ， 你 可 能 需要 采取 下 列 上 典型 的 操作 : a) 用 e-mail 或 者 BBS 系统 发 现 相 关 文 件 的 文件 
名 ; b) 用 telnet 登陆 一 个 archie 服务 器 去 搜索 那个 文件 的 位 置 ; c) 通过 ftp 登陆 存 有 这 个 文件 
的 服务 器 ; d) 浏览 那个 系统 上 的 相关 目录 ; e) 将 文件 复制 到 自己 的 系统 上 ; f) 选择 合适 的 程 
序 来 显示 这 个 文件 。 
Web 是 1989 ~ 1990 年 由 Tim Bemers-Lee 以 对 所 有 这 些 复杂 问题 [27.2] 的 阐述 为 基础 而 发 
明 的 。 其 中 最 重要 的 概念 是 超 文本 (hypertext) ， 这 是 由 Ted Nelson [27. 19] 在 更 早 几 年 的 时 候 
提出 的 。 超 文本 是 一 种 组 织 信息 的 方式 ， 它 允许 文本 文档 通过 内 符 的 链接 (link) 引用 其 他 的 文 
档 和 文件 ， 或 者 其 他 文档 和 文件 的 部 分 组 件 。Bemers-Lee 的 最 大 贡献 在 于 在 一 个 图 形 化 的 浏览 
器 中 实现 了 链接 ， 使 得 能 够 将 一 个 窗口 中 的 各 种 类 型 的 信息 都 集成 起 来 ; 在 网 络 上 相关 的 效果 就 
是 用 户 可 以 通过 简单 的 鼠标 点 击 去 获取 和 显示 任何 他 们 需要 的 信息 ， 而 不 是 不 得 不 通过 以 前 必须 
使 用 的 所 有 的 单独 命令 和 过 程 。 她 可 以 通过 下 列 定义 来 达到 这 种 显著 的 易 用 性 : 
a 一 种 用 于 标识 以 及 引用 文档 和 其 他 资源 的 机 制 Uniform Resource Locators (URLs, 之 
后 被 概括 成 为 Uniform Resources Identifiers ， 或 者 URIs) 。 

9 一 种 标记 语言 用 于 生成 文档 ， 并 且 使 得 这 些 文 档 自身 包含 了 如 何 显 示 的 信息 一 一 Hyertext 
Markup Language (HIML ) 。 

时 一 种 协议 用 于 传递 在 Intemet 上 传输 这 种 文档 一 一 Hypertext Transfer Protocol (HTTP) 。 
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注意 ; 在 下 一 节 中 我 们 会 在 标记 语言 和 HTML 上 做 一 些 更 多 的 讨论 。 

现在 ， 我 们 可 以 把 Web 当 作 一 个 巨大 的 数据 库 ， 这 个 数据 库 分 布 在 一 系列 的 网 站 上 ， 每 
个 网 站 都 有 自己 的 web 服务 器 和 标识 自己 的 URL。 用 户 则 通过 网 络 浏览 器 来 访问 这 个 数据 库 。 
每 个 网 站 中 包含 了 大 量 的 网 页 ， 其 中 每 一 个 页 面 都 有 一 个 相关 的 根 文档 用 于 指定 这 个 页 面 如 
何 显示 。 在 不 辣 的 网 站 上 ， 根 文档 也 和 其 他 所 有 的 文档 一 样 ， 含 有 典型 地 指向 不 同类 型 信息 
(文本 、 图 片 、 音 频 、 视 频 ， 等 等 ) 的 URL 链接 ; 对 于 用 户 来 说 ， 会 将 根 文档 和 普通 页 面 当 
作 一 个 整体 来 对 待 ， 最 多 可 能 意识 到 原始 页 面 中 的 链接 ， 而 没有 更 多 的 其 他 东西 。 但 是 在 显 
示 在 用 户 面前 的 页 面 中 ， 其 中 包含 的 链接 也 被 同时 显示 出 来 ， 如 果 用 户 点 击 了 这 样 的 一 个 链 
接 ， 浏 览 器 会 在 同一 个 窗口 中 显示 相关 的 信息 〈 或 者 在 一 个 新 开 的 窗口 中 ) 。 注 意 : 对 于 一 些 
网 页 来 说 ， 用 户 可 以 通过 填写 表单 来 检索 更 多 的 信息 。 搜 索引 擎 是 其 中 的 一 种 重要 的 形式 。 
通常 来 说 ， 一 个 搜索 引擎 需要 一 个 指定 的 搜索 参数 ， 比 如 , “Camelot”， 提 交 之 后 会 返回 一 个 
含有 相关 信息 的 网 站 列表 。 为 了 能 够 在 一 个 合理 的 时 间 内 提供 这 样 的 搜索 能 力 ， 搜 索引 擎 通 
常 需要 对 Web 上 的 成 千 上 万 的 文档 中 出 现 的 关键 字 建立 广泛 的 索引 。 这 些 索 引 是 由 不 间断 运 
行 的 web crawlers 来 生成 和 维护 的 。Web crawlers 能 够 检索 网 页 并 且 记 录 网 页 中 可 能 有 价值 的 
搜索 参数 。 

某 一 个 网 站 上 的 信息 可 以 存放 在 操作 系统 的 文件 中 ， 但 是 越 来 越 多 的 信息 被 存放 在 后 台 的 数 
据 库 中 (基于 SQL 的 数据 库 或 者 其 他 类 型 的 ) ， 因 此 现在 的 web 服务 器 通常 需要 能 够 和 DBMS 
进行 交互 。 第 27.6 和 27.7 节 中 给 出 了 一 些 在 这 种 交互 中 涉及 的 思想 。 


27.3 XML 综述 


“XML” 的 意思 是 Extensible (注意 :不 是 eXtensible) Markup Language。 一 个 XML 文档 不 
准确 地 说 就 是 一 个 使 用 XML 工具 生成 的 文档 。 下 面 是 一 个 简单 的 例子 。 注 意 到 其 中 大 量 用 到 的 尖 
括号 “ <” 和 “ >” (不 要 和 本 书 中 其 他 地 方 ， 特 别 是 BNF 语法 中 用 到 的 尖 括 号 混淆 起 来 ) 。 


<?xml version="1.0"?> 
<greeting kind="succinct">Hello, world.</greeting> 


例子 中 的 第 一 行 是 XML 声明 ( 某 几 个 可 选 的 特性 已 经 省 略 掉 ) ; XML 文档 通常 都 包含 这 种 
声明 ， 虽 然 这 并 不 是 必须 的 。 例 子 中 的 第 二 行 是 一 个 XML 元 素 ， 其 中 包含 了 一 个 开始 标签 ， 一 
些 字符 数据 和 一 个 结束 标签 (更 一 般 地 来 说 ， 一 个 元 素 中 可 能 包含 字符 数据 ， 或 者 其 他 的 元 素 ， 
或 者 两 者 的 混合 ) 。 在 这 个 例子 中 的 字符 数据 是 字符 串 “Hello,， world. ”; 开始 标签 是 这 个 字符 串 
之 前 的 那个 标记 ， 结 束 标签 是 字符 数据 之 后 的 标记 。 (在 这 里 ， 标 签 (tag) 也 可 以 作为 标记 
(markup) 的 意思 ， 表 示 一 个 开始 标签 和 相应 的 结束 标签 一 起 出 现 。) XML 文档 中 标签 是 由 文档 
定义 者 所 给 的 名 字 标 识 的 ， 同 时 这 个 名 字 也 标识 了 XML 元 素 的 类 型 ; 比如 ， 标 签 为 “greeting 
的 XML 元 素 就 是 一 个 “greeting8 ”元素 。 包 含 在 开始 标签 中 的 规范 


kind="succinct" 


是 一 个 XML 属性 (attribute，XML 属性 和 关系 意义 中 的 属性 没有 任何 关系 ) 。 这 个 属性 的 名 字 是 
“kind”， 字 符 串 “succinct” 则 是 它 的 值 。 

就 像 从 这 个 简单 的 例子 中 能 够 看 到 的 一 样 ， 从 某 些 观 点 上 来 说 ， 一 个 XML 文档 仅仅 是 一 个 
字符 串 。 在 这 个 字符 串 中 包含 了 数据 和 标记 ， 而 标记 则 是 描述 了 数据 意义 的 元 数据 
(metadata)9 .典型 的 来 说 ，XML 文档 不 仅 对 于 人 是 可 读 的 和 可 理解 的 ， 而 且 对 于 机 器 来 说 也 是 
可 读 和 可 理解 的 ; 这 意味 着 他 们 可 以 更 容易 的 在 应 用 程序 中 进行 处 理 。 注 意 : 对 于 后 者 来 说 ， 我 
们 发 现 标记 使 得 应 用 程序 可 以 容忍 数据 格式 在 一 定 范围 内 的 变更 。 比 如 : 





个 ” 根 文档 中 可 能 也 直接 拣 人 了 这 种 附加 的 信息 。 
后 ”尽管 文档 中 直接 包含 的 数据 必须 是 字符 数据 ，XML 文档 同样 可 以 有 效 的 包含 很 多 其 他 的 数据 ， 比 如 图 片 ， 视 频 
记录 ， 以 及 其 他 种 类 的 非 字 符 数据 。 这 要 归功 于 文档 中 嵌 和 人 的 链接 。 这 种 链接 也 可 以 认为 是 标记 的 一 部 分 。 
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a 由 于 XML 元 素 中 包含 了 界定 (delimiting) 标签 ， 因 此 对 于 同一 个 元 素 的 不 同 实例 就 不 必 

具有 固定 的 长 度 ， 而 是 可 以 在 文档 和 文档 中 间 不 同 ， 甚 至 可 以 在 单个 文档 中 也 不 同 。 

s (更 重要 的 !) 新 元 素 一 一 一 些 新 类 型 的 元 素 一 一 可 以 在 任何 时 候 加 入 一 个 已 经 存在 的 文 

档 中 ， 而 不 会 影响 该 文档 的 已 经 存在 使 用 者 (特别 是 已 经 存在 应 用 程序 ) 。 

也 就 是 说 ， 只 要 数据 的 生成 者 和 使 用 者 之 间 能 够 在 如 何 解释 标记 这 个 问题 上 取得 一 致 ， 
XML 也 能 够 解决 一 些 数据 交换 的 问题 。 而 相反 的 ， 对 于 传统 的 固定 格式 的 协议 来 说 一 一 比如 电 
子 数据 交换 (EDI) 一 一 数据 格式 的 变化 需要 在 数据 的 生成 者 和 使 用 者 的 所 有 和 该 数据 相关 的 部 
分 做 相应 的 修改 。 

1. 标记 语言 

为 了 发 现 XML 的 一 些 隐 藏 的 基本 原理 ， 我 们 有 必要 来 看 一 下 它 是 如 何 从 更 旱 的 标记 
(Markup) 语言 发 展 而 来 的 。 不 像 一 些 传 统 的 编程 语言 ， 标 记 语言 的 目的 〈 至 少 他 们 的 最 初 目 
的 ) 仅仅 是 允许 在 生成 文本 文件 时 允许 包含 格式 提示 信息 一 一 标记 一 一 这 些 信息 可 以 被 可 应 用 
的 字 处 理 器 所 识别 。 在 一 些 特殊 情况 下 ， 标 记 由 二 进 制 表示 ， 就 像 在 其 他 第 况 下 被 表示 为 规则 文 
本 。 不 过 这 样 的 语言 一 般 都 是 受 专利 保护 的 。 比 如 ，IBM 使 用 一 种 受 专利 保护 的 以 文本 为 基础 
的 语言 Script 来 格式 化 用 户 手册 和 类 似 的 文档 。 下 面 的 例子 是 从 一 个 典型 的 Script 文件 中 摘录 出 
来 的 片断 : 

-SP 2 

.il 3m;You should specify the ;.us on;first;.us off; parameter 

as PRIVATE. This specification will allow the processor to 

complete the conversion without further input. 

这 里 的 标记 告诉 格式 化 工具 先 向 下 写 两 个 空 行 (“.sp 2”) ， 首 行 缩 进 3 em 空间 (“.i 3m”), 给 
单词 “first” 添 加 下 划 线 (“.us on” 和 “.us off” ) ， 最 后 换行 (“ .br” ) 。 

现在 Script 语言 以 及 一 些 类 似 的 语言 面临 的 一 个 问题 是 标记 通常 是 和 程序 非常 相关 的 一 一 不 
仅仅 是 说 它 控制 文档 格式 的 事实 ， 更 多 的 问题 是 一 种 标记 通常 只 能 适用 于 一 种 或 者 几 种 特殊 的 装 
置 (典型 的 例子 就 是 单 色 行 打印 机 )。 为 了 弥补 这 些 不 足 之 处 ，IBM 的 三 个 研究 员 提 出 了 Gener- 
alized Markup Language (通用 标记 语言 ) ，GML。9 GML 和 Script 语言 的 关键 区 别 在 于 GML 中 的 
标记 语言 相对 于 早期 的 程序 化 的 标记 语言 来 说 更 具有 描述 性 ， 或 者 更 有 说 明 性 。 对 于 我 们 刚才 提 
到 的 Script 的 例子 ， 下 面 是 用 GML 的 重新 描述 : 


<p>You should specify the <empl>first</empl> parameter as PRIVATE. 
This specification allows the processor to complete the conversion 
without further input. 


这 里 的 标记 简单 地 告诉 格式 化 工具 ， 这 些 文本 是 一 个 段落 (“<p >”)， 而 不 是 为 这 样 一 个 
段落 给 出 细节 的 格式 信息 (“ 空 两 行 "， 等 等 )。 同 时 这 里 的 标记 也 告诉 格式 化 工具 ，“ first” 具 
有 第 一 层次 的 强调 (“ <empl > ”和 “< /empl > ”) 而 不 是 特别 的 表明 它 将 具有 下 划 线 。 注 意 ， 
在 例子 中 我 们 故意 采用 了 一 些 GML; 尤其 是 ， 我 们 使 用 了 尖 括 号 来 区 别 标 记 (tag) ， 而 不 是 更 
常用 的 冒号 (“ ;”)。 这 些 违背 了 通常 的 习惯 ,但 对 当前 的 使 用 效果 来 说 并 不 重要 。 

GML 的 标记 确实 更 具有 描述 性 ， 但 是 它 还 是 以 关注 外 观 或 者 文本 表示 为 主 〈 尽 管 它 也 能 够 
支持 一 些 其 他 的 任务 ， 比 如 计算 段落 的 数量 ) 。 更 特别 地 ， 用 户 只 能 够 使 用 已 经 定义 在 语言 中 的 
那些 标记 。 相 反 ，GML 的 一 种 扩展 格式 一 一 标准 GML (SGML) 一 一 允许 用 户 定义 自己 的 标 
记 ， 并 且 能 够 给 予 这 些 标记 以 任何 他 们 所 需要 的 意义 。” 通过 使 用 这 个 扩展 的 灵活 性 ， 我 们 可 以 
通过 扩展 前 述 例子 来 详细 说 明 其 中 数据 具有 的 结构 : 








@ 事实 上 GML 也 是 它 的 三 个 发 明 者 (Charles Goldfarb ，Edward Mosher 和 Raymond Lorie) 的 名 字 的 首 字母 缩写 ， 
这 不 仅仅 是 一 个 巧合 。 

@@ ”这 里 我 们 引用 -一 段 有 意思 的 话 :“ 即 使 是 最 小 的 组 织 ， 其 中 大 多 数 的 冲突 也 来 自 缺 乏 对 一 些 常用 词 的 清楚 的 定义 
和 统一 的 意义 ”[27. 4]。 
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<paragraph> 
<sentence> 
<subject>You</subject> 
<verb> should specify</verb> 
<object> the <adjective><empl>first</empl></adjective> 
parameter</object> 


</sentence> 
<sentence> 


/home 
注意 : 这 里 我 们 必须 注意 到 一 个 事实 一 一 “object” 元 素 (element) 中 同时 包含 了 字符 串 数据 和 
另 一 个 元 素 “adjective”。 
从 这 个 例子 中 我 们 可 以 看 到 ，SGML 还 不 是 一 种 真正 的 标记 语言 (“SGML” 这 个 名 字 事 实 
上 也 是 一 个 名 称 误 用 ) 。 更 确切 地 说 ， 它 是 一 种 中 间 语 言 (metalanguage ) 它 提 供 了 一 些 规 
则 ， 根据 这 些 规则 用 和 访 可 以 定义 定制 他 们 自己 的 标记 语言 ， 也 就 是 说 ， 用 户 可 以 使 用 他 们 自己 定 
义 的 标签 。 HTML 就 是 这 样 的 一 种 语言 ， 它 也 是 根据 SGML 定义 而 来 的 ， 我 们 也 可 以 认为 它 是 
一 种 特殊 的 SGML 应 用 (这 里 对 于 “SGML 应 用 ”， 我 们 指 的 是 应 用 SGML 中 间 语 言 (metalan- 
guage) ， 而 不 是 一 个 使 用 了 SGML 的 应 用 程序 ) 。 不 过 不 幸 的 是 ，HTML 并 没有 纯粹 的 保存 GML 
的 描述 性 的 特性 ， 除 了 一 些 结构 和 语义 标记 之 外 ， 它 重新 引信 了 一 些 格 式 标 记 用 于 格式 化 文本 。 
事实 上 一 些 HTML 标签 能 够 同时 提供 所 有 这 三 种 类 型 的 信息 ; 比如 ，HTML 标签 ”< Hl > "同时 
指定 了 第 一 层 的 标题 和 一 个 页 面 的 标题 (语义 上 ) ， 同 时 它 也 可 以 选择 性 的 指定 文本 的 字体 〈 格 
式 ) 信息 。 
2. XML 的 发 展 历程 
最 早 XML [27.25] 是 由 一 个 SGML 评审 委员 会 在 1996 发 展 起 来 的 ， 这 个 评审 委员 会 是 由 
World Wide Web 协会 ， 即 W3C (由 Bemers-Lee 在 1994 年 创立 ) 赞助 的 。XML 的 最 初 目的 是 为 
了 修补 SGML 和 HTML 中 存在 的 某 些 问题 。 对 于 SGML 来 说 ， 其 问题 在 于 这 个 语言 对 于 支持 
Web 上 的 应 用 来 说 过 于 庞杂 了 。 而 对 于 HTML 来 说 ， 存 在 双重 的 问题 : 
s 我 们 前 面 已 经 解释 过 ，HTML 不 能 够 严格 的 区 分 结构 的 、 语 义 的 以 及 格式 相关 的 元 数据 。 
sm HTML 允许 文档 违背 文档 的 “良好 形式 ”规则 一 一 也 就 是 说 ， 它 允许 文档 不 遵守 自己 的 
语法 规则 !9 这 个 问题 的 产生 原因 在 于 市 场 上 同时 存在 多 种 互相 激烈 竞争 的 浏览 器 ; 这 样 ， 
当面 对 一 个 形式 不 正确 的 文档 D 时 ， 如 果 这 个 文档 能 够 被 浏览 器 A 正确 显示 ， 而 浏览 器 B 
却 不 可 以 时 ， 人 们 不 会 意识 到 这 是 文档 D 中 存在 不 足 之 处 ， 而 会 觉得 是 浏览 器 8 的 功能 
不 够 完善 。 
XML 和 之 前 的 SGML 一 样 ， 是 一 种 中 间 语 言 (metalanguage) (因此 “XML” 这 个 名 字 本 
身 也 是 一 个 名 称 误 用 (misnomer) ); 事实 上 XML 是 SGML 的 一 个 合理 的 子 集 。XML 规范 
[27.25] 中 提出 : 
可 扩展 标记 语言 (XML) 是 SGML 的 子 集 ，…… 目标 是 使 一 般 的 SGML 像 HTML 一 样 ， 在 
网 络 上 被 使 用 、 接 收 和 处 理 。XML 使 得 实现 更 容易 ，SGML 与 HTML 互 操作 更 方便 。 
XML 重新 确立 了 标记 的 描述 特性 (比如 ，XML 定义 的 标记 语言 只 包括 描述 性 标记 ) 。 要 注 
意 的 是 ， 这 样 的 XML 在 问题 上 并 没有 授予 标记 以 特别 的 含义 。 
尽管 已 经 表明 了 其 目标 ， 在 网 页 的 介质 选择 中 XML 还 没有 明显 的 取代 HTML (通常 一 个 不 
能 够 支持 XML 的 浏览 器 仍然 能 够 正确 的 显示 网 页 ) 。 在 另 一 方面 ，XML 在 其 他 领域 的 应 用 正在 
突飞猛进 的 发 展 ， 比如，XML 已 经 被 应 用 在 不 同 的 目的 上 一 一 配置 文件 、 用 于 分 析 工 具 的 数据 
交换 格式 、 协 同 网 络 中 应 用 程序 之 间 的 新 的 消息 协议 等 。 这 样 的 事实 导致 的 一 个 结果 是 ， 越 来 越 
有 必要 在 数据 库 中 存储 XML 数据 。 下 面 我 们 用 例子 来 说 明 一 些 我 们 希望 在 数据 库 中 保存 XML 








日 ”事实 FE GML 也 是 这 样 的 。 
@@ “不幸 的 是 ， 在 我 们 写 这 本 书 的 时 候 ， 很 明显 的 趋势 证 明 XML 也 正在 发 生 相同 的 情况 。 
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数据 的 情况 : 
a 考虑 到 我 们 通常 用 的 关于 零件 的 关系 变量 P。 我 们 可 能 想 扩展 关系 变量 使 得 它 能 够 加 入 一 
个 附加 的 DRAWING 属性 〈 见 图 27-1) 。 在 给 定 的 任何 一 个 元 组 中 ， 这 个 属性 的 值 通过 一 
个 特殊 的 XML 派生 形式 Scalable Vector Graphics (SVG) 一 一 详 见 下 一 节 一 一 对 有 问题 的 
零件 画 出 的 一 条 横 线 。 可 以 观察 到 每 一 个 这 样 的 值 都 是 一 个 完整 的 SVG 文档 ， 而 且 从 前 
一 章 的 角度 来 看 ， 整 个 数据 库 可 以 被 认为 是 一 个 “对 象 /关系 ”数据 库 。 注 意 : 事实 上 ， 
把 属性 DRAWING 的 值 说 成 横 线 并 不 是 很 正确 ， 更 确切 的 说 ， 这 些 值 是 一 些 XML 文档 ， 
一 些 应 用 程序 可 以 将 他 们 解释 为 生成 横 线 。 见 图 27-1。 
es 相似 的 ， 我 们 可 能 在 关系 变量 P 中 增加 一 个 属性 DESCRIPTION。 在 每 个 元 组 中 的 属性 值 
也 是 一 个 XML 文档 ， 这 个 文档 描述 了 问题 中 的 零件 ， 并 且 解 释 了 使 用 它 的 合理 方法 。 
当然 ，XML 也 可 以 用 于 表现 更 传统 的 数据 库 中 的 数据 。 比 如 ， 购 买 订 单 ， 零 件 目录 ， 以 及 
报表 记录 等 都 可 以 用 XML 来 表示 。 因 此 ， 一 个 非 关 系 的 数据 库 中 可 能 只 包含 了 XML 文档 。 在 
27. 6 节 我 们 讨论 了 这 种 可 能 性 。 
XML 也 可 以 用 来 表示 关系 ， 这 在 向 关系 数据 库 中 导 和 人 数据 或 者 从 中 导出 数据 时 可 能 会 有 相 
关 用 途 (同样 见 27.6 节 )。 比 如 ， 下面 是 我 们 常用 的 关于 零件 的 关系 的 XML 表示 (只 包含 了 PI 
和 P2 的 元 组 ) : 
<?xml version="1.0"?> 
<!-- This is an XML representation of the parts relation -~> 
<!--~- of Fig. 3.8 (tuples for Pl and P2 only). Note that --> 
<!-- all data values are represented as simple character --> 
<!-- Strings. -> 
<PartsRelation> 
<pPartTuple> 
<PNUM>P1</PNUM> 
<PNAME>Nut</PNAME> 
<COLOR>Red</COLOR> 
<WEIGHT>12.0</WEIGHT> 
<CITY>London</CITY> 
</PartTuple> 
<PartTuple> 
<PNUM>P2</PNUM> 
<PNAME>Bolt</PNAME> 
<COLOR>Green</COLOR> 
<WEIGHT>17.0</WEIGHT> 
<CITY>Paris</CITY> 
</PartTuple> 
</PartsRelation> 
XML 文档 片断 特点 : 
a 特殊 的 布局 显示 一 一 缩 进 和 特别 的 行 划分 一 一 仅仅 用 于 增加 可 读 性 。 这 对 于 XML 文档 来 
说 不 是 必须 的 。 事 实 上 ， 大 多 数 的 商业 相关 的 XML 文档 都 不 包含 这 种 “ 空 自 " ， 通 常 他 
们 的 标记 和 数据 排 成 一 行 而 没有 任何 类 型 的 间断 。 
a 我 们 把 名 字 P# 换 成 了 PNUM， 这 是 因为 在 XML 标签 名 字 中 “#” 是 一 个 非法 字符 (在 本 
章 的 所 有 例子 中 ， 为 了 保持 一 致 性 ， 无 论 是 关系 还 是 XML 中 ， 我 们 都 将 做 类 似 的 变换 ) 。 
s 就 是 XML 注释 中 提示 的 那样 ， 所 有 (关系 ) 属性 值 都 已 经 映射 成 简单 的 字符 串 。 
m 为 了 简单 起 见 ， 我 们 仅仅 选择 表示 了 关系 的 主体 ， 而 没有 包括 头 部 信息 。( 在 本 章 之 后 的 
所 有 例子 中 ， 在 可 行 的 情况 下 我 们 都 做 了 相同 的 处 理 。) 
m 我 们 特意 说 明了 空 元 素 是 允许 出 现 的 。 比 如 ， 假 设 一 些 零 件 没 有 颜色 信息 ， 对 于 这 样 的 零 
件 我 们 采用 空 字符 串 来 表示 COLOR 的 值 。 在 文档 中 显示 为 < COLOR > </COLOR >， 或 
者 更 简单 的 可 以 表示 为 </COLOR > 。 
注意 : 就 像 术 语 空 元 素 所 提示 的 ，XML 将 这 样 的 元 素 视 为 不 包含 内 容 的 元 素 。 然 后 ， 从 导 
辑 上 来 说 更 正确 的 说 法 是 他 们 不 包含 内 容 一 一 也 就 是 说 字符 串 〈 尽 管 存在 一 个 空 字符 串 ) 。 术 语 
空 元 素 事实 上 也 是 一 个 名 称 误 用 。 而 且 ， 在 27.4 节 中 的 “XML Schema” 小 节 中 可 以 看 到 “ 空 
元 素 ” 同 样 可 以 有 XML 属性 。 
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s 最后， 我 们 必须 说 这 里 所 显示 的 这 个 XML 文档 所 显示 的 内 容 并 没有 完全 忠实 于 原 有 关 
系 ， 这 是 因为 在 XML 文档 中 强加 了 一 个 自 项 向 下 的 元 组 序列 和 一 个 从 左 到 右 的 元 组 属性 
的 序列 (两 者 其 实 都 是 词典 序列 ) 。 事实 上 ， XML 文档 中 的 元 素 总 是 具有 顺序 的 (正式 
的 术语 是 文档 顺序 )”。 在 27.6 节 的 “文档 切割 和 发 布 ”( Shred and Publish) 中 ， 我 们 还 
会 在 这 个 问题 上 做 进一步 的 解释 。 
3. XML 文档 结构 
本 章 中 我 们 已 经 多 次 用 到 XML 文档 这 个 术语 了 ， 但 我 们 必须 知道 这 个 术语 事实 上 不 是 很 准 
确 : 文档 不 是 表示 成 XML 本 身 ， 而 是 表示 成 一 些 XML 的 派生 物 ， 比如 说 ， 一些 用 XML 定义 的 
标记 语言 。 不 过 ， 将 这 样 的 文档 统称 为 “XML 文档 ” 对 于 我 们 来 说 会 方便 的 多 ， 在 以 后 的 章 
节 中 我 们 会 沿用 这 种 说 法 。 
假设 有 一 个 XML 派生 的 XD。 这 样 ， XD 的 定义 中 包含 了 XD 中 可 能 出 现 的 标记 的 意义 (至 
少 是 非 正式 的 定义 ) ， 以 及 可 定义 的 操作 符 和 用 XD 处 理 文档 的 程序 。 假设 DD 为 这 样 的 一 个 文档 。 
抽象 的 来 说 ，D 具有 一 个 层次 结构 ， 也 就 是 说 包含 了 一 个 根 结 点 和 一 系列 的 子 结 点 ( 这些 子 结 
点 也 具有 自己 的 子 结 点 列表 ， 而 且 ， 每 个 子 结 点 有 且 仅 有 一 个 父 结 点 ) 。 对 于 前 几 节 中 提 到 的 关 
于 零件 的 关系 ,我们 在 图 27-2 中 给 出 了 他 的 层次 结构 。 从 图 中 可 以 看 到 ， 除了 下 述 两 种 情况 ， 
每 个 结 点 都 表示 了 一 个 XML 元 素 : 







PartsRelation 
是 根 元 素 


White space 





27-2 PartsRelation 文档 的 infoset (简化 ) 


层次 结构 的 根 结 点 ， 即 document 结 点 代表 了 整个 XML 文档 (注意 : document 并 不 等 同 
于 文档 的 根 元 素 一 一 即 最 上 层 的 元 素 结 点 1) 。 

"文档 的 叶 结 点 代表 数据 结 点 。 注 意 ， 叶 结 点 同时 也 用 于 表示 : (a) XML 属性 (当然 在 我 
们 现在 的 例子 中 并 不 包含 属性 ); (b) XML 注释 ， 空白 空间 ,等 等 不 同 的 项 (在 图 中 也 
有 这 样 的 一 些 结 点 ) 。 

一 个 完整 的 层次 结构 被 称 为 XML 文档 的 信息 集 ( “infoset” ) ， 这 样 的 层次 结构 的 一 种 应 用 
程序 接口 (API) 是 文档 对 象 模型 DOM [27. 24] 。 通 过 DOM API, 一 个 应 用 程序 可 以 检索 、 插 
和 人 和、 删除 以 及 改变 结 点 ， 等 等 。e 

同时 ， 很 明显 ， 会 有 多 个 不 同 的 XML 文档 符合 一 个 相同 的 通用 层次 结构 ( 比如 ， 他 们 各 自 
的 信息 集 可 能 含有 相同 的 一 般 结构 ) 。 举 个 例子 来 说 ， 我 们 可 能 都 认同 (至 少 在 这 个 讨论 的 目的 
之 上 ) 每 本 书 都 含有 一 个 书 名 、 一 个 前 言 (可 选 )、 一 系列 的 章节 、 一 系列 的 附录 (可 选 ) 和 一 





日” 但 是 XML 的 属性 是 没有 顺序 的 。 因 此 ， 更 可 取 的 方法 是 用 属性 来 表示 PNUM、PNAME、COLOR、WEIGHT 和 
CITY， 而 不 是 用 元 素 。 

日 “XML 派生 物 ” 的 正式 名 称 是 XML 应 用 。 这 里 我 们 倾向 于 使 用 前 者 ， 因 为 这 样 不 会 于 一 个 使 用 了 XML 的 应 用 
程序 混淆 起 来 。 

全 ”指出 : 一 个 给 定 文档 的 信息 集 非常 接近 于 该 文档 的 “可 能 表示 ”( 根 据 第 5 章 ) 可 能 会 有 帮助 。 
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个 目录 (可 选 ); 其 中 每 章 中 包含 了 一 个 标题 和 一 些 非 空 的 节 ; 每 节 中 包含 了 一 个 标题 和 一 些 非 
空 的 段落 ， 其 他 的 情况 也 可 以 依 此 类 推 。 同 时 ， 不 同 的 书 含有 不 同 的 特殊 结构 ， 比 如 一 些 书 没有 
前 言 ， 一 些 书 可 能 没有 附录 ， 一 些 可 能 有 一 些 目录 ， 另 外 不 同 的 书 也 有 着 不 同 数据 的 章节 ， 等 
等 。 因 此 ， 如 果 我 们 分 别 用 一 个 XML 文档 来 表示 每 本 书 ， 这 样 在 这 些 文档 的 细节 上 我 们 可 以 从 
中 发 现 大 量 的 不 同 之 处 一 一 可 以 想象 ， 其 中 会 有 比 遵从 关系 模型 的 关系 元 组 更 多 的 不 同 之 处 。 而 
且 , 通常 我 们 都 认为 关系 具有 非常 紧凑 的 结构 ， 而 XML 文档 则 具有 相对 来 说 松散 得 多 的 结 
构 2 。 关 系 包含 结构 化 数据 ， 而 XML 文档 则 包含 半 结 构 化 数据 (或 者 说 基于 “ 半 结 构 化 数据 
模型 ”) 。 

不 过 ， 接 下 来 的 这 些 观点 并 不 能 经 得 起 仔细 的 审查 。 事 实 上 ， 关 系 并 没有 比 XML 文档 具有 
更 多 或 者 更 少 的 “结构 性 ”。( 它 们 确实 含有 不 同 的 结构 ， 但 是 ， 能 够 用 XML 来 表示 的 情况 总 是 
可 以 很 好 的 等 价 转换 成 用 关系 来 表示 一 一 可 能 是 一 个 元 组 ， 或 者 一 组 元 组 ， 或 者 更 复杂 的 情 
况 。) 然而 ， 半 结构 化 这 个 术语 在 工业 界 用 的 比较 多 ， 因 此 这 里 我 们 也 才 提 到 了 这 个 说 法 。 

附注 : 这 里 我 们 也 给 出 一些 在 其 他 文献 中 提 到 过 的 合理 的 可 替换 的 数据 。 比 如 : 

s 文献 [26. 35] 中 根据 实际 情况 提出 : 部 分 数据 具有 确定 的 结构 ， 而 另外 一 些 则 具有 不 同 
的 结构 〈 比 如， 每 本 书 都 含有 一 个 书 名 ， 但 不 是 每 本 书 都 有 一 个 目录 ) 。 

a 文献 [27. 13】 则 根据 实际 情况 提出 : 数据 不 含有 一 个 传统 意义 上 的 模式 ， 而 是 -- 种 “无 
模式 ”和 “ 自 描述 ”的 情况 。 文 献 [27. 17] 中 也 提出 了 相同 的 说 法 ， 区 别 就 是 再 加 上 了 了 
“县 有 对 象 特 性 ”的 特点 。 

a 文献 [27.23] 根据 实际 数据 情况 提出 : 数据 “可 能 是 不 规则 的 或 者 不 完整 的 ， 并 且 结 构 

可 能 会 迅速 变化 或 者 可 能 是 不 可 预计 的 ”。 

当然 ，XML 具有 什么 结构 的 问题 ， 更 多 的 是 取决 于 文档 设计 者 的 判断 。” 从 某 种 意义 上 来 
说 ， 这 种 结构 是 由 文档 设计 者 强加 在 数据 之 上 的 ， 而 不 同 的 设计 者 显然 可 以 随意 的 通过 不 
同 的 数据 划分 方式 和 选择 不 同 的 标签 来 强加 各 种 不 同 的 结构 。 比 如 ， 一 首 诗 可 以 用 一 整 块 
的 文本 来 表示 (< poem > … </poem > ) ， 也 可 以 用 一 系列 的 诗句 来 表示 ( < poem > 
<verse > .…</verse > … </poem > ) ， 或 者 用 其 他 更 多 的 方式 。 我 们 或 许可 以 这 么 说 ， 半 
结构 化 的 意思 是 从 这 样 的 考虑 中 演化 而 来 的 。 

从 我 们 的 观点 来 说 ， 上 述 的 这 些 理由 都 是 经 不 起 仔细 的 分 析 的 。 事 实 上 ， 在 “ 半 结 构 化 模 
型 ”和 传统 意义 上 的 层次 模型 (就 像 我 们 在 第 13 章 或 者 参考 文献 [1.5] 中 描述 并 且 批 判 了 的 
模型 ) 的 结构 方面 并 没有 实质 性 的 不 同 。 当 然 ， 这 也 产生 了 另外 一 个 问题 : 通常 意义 上 的 数据 
模型 ， 特 别 是 层次 模型 ， 都 包含 了 操作 符 ; 但 是 “ 半 结 构 化 模型 ”看 起 来 却 只 和 数据 结构 有 关 ， 
甚至 对 操作 符 有 排斥 性 。 

这 个 问题 的 最 后 一 个 观点 是 : 在 一 些 文献 中 经 常 提 出 infoset (根据 通常 的 解释 见 文献 
[27.26]) 和 “ 半 结 构 化 模型 ”都 是 “XML 数据 模型 ” 。 但 是 事实 却 比 这 个 观点 混乱 的 多 ， 几 乎 
每 个 文献 (比如 [27.24] ，[27.28] ，[27.27] ，[27.29] ，[27.26] 等 ) 都 提出 并 且 定义 了 他 
们 自己 的 “XML 数据 模型 ”( 这 些 模型 中 的 一 部 分 也 有 操作 符 ， 另 一 些 则 没有 ) 。 因 此 ， 很 难 搞 
清楚 这 些 模 型 中 到 底 哪个 应 该 称 为 XML 数据 模型 。 

4. XML 派生 和 标准 

XML 的 标准 化 是 最 近 才 开始 的 〈1998 年 2 月 )”, 但 是 令 人 难以 置信 的 是 ， 在 之 后 很 短 的 
时 间 内 它 得 到 了 大 量 接受 和 支持 。 在 写 这 本 书 的 时 候 ， 有 至 少 200 种 不 同 的 派生 XML 一 一 有 些 











他 ”当然 并 不 是 没有 结构 。 从 定义 上 来 说 ， 完 全 没有 结构 的 “数据 ” 指 纯粹 的 噪音 数据 ， 这 个 无 结构 化 数据 是 相关 
的 概念 。 

@ 和 (或 ) 文档 类 型 设计 者 ( 见 27.4 节 )。 

加 ”内 为 W3C 只 是 一 个 协会 ， 而 不 是 正式 标准 组 织 ， 所 以 W3C 的 XML 规范 也 只 是 一 个 “推荐 ”标准 ， 而 不 是 正 
武 标准。 不 过 ， 这 个 区 别 对 于 实际 应 用 并 不 重要 。 我 们 顺便 说 明 一 下 ，XML 规范 是 根据 Unicode 标准 [27. 22 ] 
制定 的 --- 个 独立 的 标准 。 
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是 新 的 ， 其 他 的 是 基于 早期 的 HTML 定义 。 这 里 用 一 个 小 的 样本 来 举例 说 明 : 
se CML: 化 学 标记 语言 
sa ebXML: 在 商业 贸易 (B2B) 中 已 正式 替代 了 EDI 
se MathML ， 数 学 标记 语言 
sm PMML: 数据 挖掘 标准 
mn WML: 无 线 标记 语言 









wn XMLife， 保险 业 标准 
也 有 一 些 应 用 和 工业 规范 依赖 于 XML， 


例如 : 
SOAP: 简单 对 象 访问 协议 ，Web Service 
的 基础 之 一 ， 一 种 新 的 程序 ， 它 经 由 Web 
发 现 和 访问 的 联合 组 件 构造 应 用 。 
ms XMI: XML 元 数据 的 交换 ， 工 具 之 间 通 
信 标 准 。 

并 且 还 有 许多 其 他 的 标准 以 及 潜在 的 标准 ， 
它们 要 么 是 有 争议 的 要 么 是 依赖 于 XML 标准 的 
(参考 图 27-3) 。 这 里 有 最 重要 的 一 些 : 

wm Namespace in XML 命名 模式 允许 不 同 的 

XML 词汇 ?无 冲突 地 一 起 使 用 。 

ma XML Information Set: XML 文档 结构 抽象 ”图 27-3 XML 及 与 XML 相关 的 标准 和 说 明 

模型 (参看 前 一 节 )。 

es XML Schema: 一 种 构造 描述 XML 文档 的 模式 的 语言 (参见 27.4 节 )。 

DOM: 文档 对 象 模型 ， 操 作 XML 信息 集 的 对 和 象 导向 (参见 前 一 节 )。 

和 XPath: XML 路 径 语言 ， 它 提供 了 一 种 方法 (“路径 表达 式 ”") 寻 址 ， 以 此 来 访问 和 分 离 

XML 文档 (参见 27.5 节 )。 

和 Xpointer: XML 指示 器 语言 ， 是 基于 Xpath 的 但 是 提供 更 广泛 的 寻 址 方法 。 

se Xquery:， XML 查询 ， 一 种 XML 查询 语言 。 

m Xjink : XML 连接 语言 ， 一 种 能 允许 元 素 插入 到 XML 文档 来 创建 和 描述 资源 间 的 连接 的 

语言 。 

wm XSL 和 XSLT: XML 类 型 和 类 型 转换 语言 ， 它 们 一 起 允许 实际 上 是 鼓励 格式 化 信息 与 描 

述 标记 分 离开 来 。 


27.4 XML 数据 定义 


如 同 传统 的 数据 库 数 据 ，XML 文档 通常 有 相关 的 描述 符 信息 。 这 些 信 息 可 以 用 文档 类 型 定 
义 (DTD) 或 XML 模式 来 说 明 。DTD 用 DTD 定义 语言 构造 ，XML 模式 用 XML 模式 语言 
[27. 28] 构造 。 我 们 在 本 节 讨 论 这 两 种 语言 。 

文档 类 型 定义 

DTD 定义 语言 ”在 文献 [27. 25] XML 文档 规范 中 有 定义 〈 换 名 话说， 文档 定义 是 XML 标 
准 一 部 分 ) 。 除 了 这 些 , 文献 【27. 25] 还 提 到 : 

和 定义 和 使 用 标 置 性 语言 的 基本 规则 是 基于 XML (也 就 是 XML 派生 ) 一 一 怎样 区 别 标记 

和 特征 数据 ， 怎 样 把 开始 和 结束 标签 恰当 配对 ， 怎 样 详细 描述 注释 等 。 
于 设计 一 个 处 理 XML 文档 的 程序 (通常 称 为 XML 剖析 器 ) 的 原则 是 向 其 他 程序 显示 





加 在 27.4 小 节 “ 文 档 类 型 定义 ”中 有 这 一 术语 的 解释 。 
外 DTD 定义 语言 表示 文档 类 型 定义 的 定义 语言 ， 好 像 有 些 元 余 , 但 是 其 实 并 非 如 此 。 两 个 定义 所 指 是 不 间 的 本 和 节 
最 后 的 “ 重 述 XML 派生 ”有 更 深入 的 评论 。 
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信息 。 
并 且 (如 前 所 述 ) 它 也 给 出 了 定义 DTDs 的 规则 。 
下 面 我 们 用 27. 3 节 中 PartsRelation 例子 的 修改 版 阐明 DTD 的 功能 。 这 主要 的 改变 是 : 我 们 
用 XML 的 属性 而 不 是 元 素来 描绘 颜色 和 城市 ， 并 且 人 允许 在 文档 的 某 一 地 方 有 一 个 可 选 的 NOTE 
元 素 。 因 此 ， 一 个 典型 的 PartsRelation 文档 现在 是 像 这 样 的 : 


<? 了 Xml version="1.0"?> 


<!-- This is an XML representation of the parts relation --> 
<!-- of Fig. 3.8 (tuples for Pl-P3 only; COLOR and CITY --> 
<!-- now represented by XML attributes instead of by XML --> 
<!-- elements) . 一 -> 
<!1DOCTYPE ... > <1!1-- See subsequent explanation -~--> 
<PartsRelation> 


<NOTE>Revised version</NOTE> 

<PartTuple CITY="London"> 
<PNUM>P1</PNUM> 
<PNAME>Nut</PNANME> 
<WEIGHT>12.0</WEIGHT> 
<NOTE>Part Color is Red by default</NOTE> 

</PartTuple> 

<PartTuple COLOR="Green" CITY="Paris"> 
<PNUM>P2</PNUM> 
<PNAME>Bolt</PNAME> 
<WEIGHT>17.0</WEIGHT> 

</PartTuple> 

<PartTuple CITY="Oslo" COLOR="Blue"> 
<PNUM>P3</PNUM> 
<PNAME>Screw</PNAME> 
<WEIGHT>17.0</WEIGHT> 

</PartTuple> 

</PartsRelation> 


上 述 的 一 般 形 式 的 文档 可 能 有 如 下 形式 的 DTD (我 们 对 每 一 行 标 上 序号 以 便 后 面 作 参考 ) : 


<!ELEMENT PartsRelation (NOTE?, PartTuple*)> 
<!IELEMENT NOTE (#PCDATA)> 
<!ELEMENT PartTuple (PNUM, PNAME, WEIGHT, NOTE?)> 
<!RTTLIST PartTuple 
CITY (London | 0slo | Paris) #REQUIRED 
COLOR (Red | Green | Blue) "Red"> 
<!ELEMENT PNUM (#PCDATA}> 
<!ELEMENT PNAME (#PCDATA)> 
<1ELEMENT WEIGHT (#PCDATA)> 


OoO~NAONr 


解释 : 

第 一 行 : 每 一 个 符合 这 个 DTD 的 文档 有 根 元 素 ， 称 之 为 PartsRelation。 这 个 根 元 素 含 有 0 个 
或 多 个 PartTuple 元 素 ， 在 它们 的 前 面 可 能 还 有 NOTE 元 素 。 注 意 : 这 个 可 选择 性 已 由 问号 标示 ， 
0 个 或 多 个 由 是 号 * 标示 ”。 特 别 是 ， 用 “ +” 代替“*?” 就 是 PartTuple + 代替 PartTuple " 
将 意味 着 “一 个 或 多 个 ”而 不 是 “ 零 个 或 多 个 "” 。 再 有 ,“ 两 者 都 不 ”就 意味 着 “一 个 ”。 

通常 ，DTDs 可 以 是 内 部 的 (也 就 是 说 ， 在 文档 中 直接 描述 )， 也 可 以 是 外 部 的 (也 就 是 ， 
包含 在 其 他 的 某 一 文件 中 ) : 

e 这 种 内 部 的 情况 ，(a) DTD 在 根 元 素 前 面 ，(b) 它 必 须 用 一 对 定 界 符 括 起 来 。 开 始 的 定 

界 符 是 这 种 形式 : 


<!DOCTYPE document type name [ 


举 个 例子 ， 这 里 就 是 PartsRelation 必须 与 根 元 素 的 名 字 一 








(这 里 的 document type name 
致 )。 结 束 的 定 界 符 的 形式 是 : 


]> 


ae 这 种 外 部 情况 ，(a) 没有 定 界 符 ; (b) (因此 这 种 外 部 情况 使 得 几 个 文档 公用 一 个 DTD 





QO ”* 是 Kleene 操作 符 。 以 前 在 第 21 章 遇 到 过 。 
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更 容易 ) 。 因 此 相关 的 内 容 应 像 这 样 : 


<!IDOCTYPE PartsRelation SYSTEM "file:///c:/parts.dtd"> 


(预示 着 DTD 将 在 文件 “parts. dtd” 中 被 找到 ) 。 在 外 部 的 情况 中 甚至 还 有 文档 中 仍然 有 < ! 
DOCTYPE…… > 这 一 行 ， 详 细 地 说 明文 档 类 型 。 

第 二 行 ; 每 一 个 NOTE 元 素 包 含有 “parsed character data” (#PCDATA) ， 意 思 是 ， 不 严格 
规则 的 没有 任何 标记 的 文本 。 第 七 、 八 、 九 行 类 似 。 

第 三 行 : 每 一 个 PartTuple 元 素 含 有 一 个 PNUM 元 素 ， 一 个 PNAME 元 素 ， 一 个 WEIGHT 元 
素 〈 按 行 中 的 顺序 ) ， 有 可 能 后 面 还 有 一 个 NOTE 元 素 。 

第 四 至 第 六 行 : 每 一 个 PartTuple 开始 标签 含有 CITY 属性 一 一 城市 属性 的 取 值 必须 是 London 、 
Oslo、 或 者 是 Paris。 颜 色 属性 的 取 值 必须 是 Red 、Green 、 或 是 Blue， 并 且 它 的 默认 取 值 是 Red。 

另外 还 有 两 点 : 

第 一 ， 所 有 的 元 素 类 型 名 和 属性 名 集合 在 一 个 给 定 的 DTD 中 定义 ， 是 指 相应 地 有 一 个 词汇 
表 。 这 里 没有 要 求 这 些 名 字 必 须 唯 一 。( 如 果 需 要 的 话 ， 在 前 面 章 节 中 提 到 的 名 字 域 机 制 可 以 解 
决 名 字 冲 突 问题 ) 。 

第 二 ，XML 规范 定义 了 两 种 级 别 的 XML 文档 一 致 性 , “格式 良好 ”和 “有 效 性 ” 。 给 定 一 
个 具体 的 “原文 对 象 ”一 -- 即 一 个 特殊 的 字符 串 一 XML 解析 器 的 职责 就 是 确定 这 个 对 象 是 否 
满足 一 致 性 的 要 求 。 下 面 的 两 个 小 节 将 进行 详细 描述 。 

1. 格式 良好 

一 个 给 定 的 原文 对 象 X 是 格式 良好 的 ， 当 且 仅 当 满 足以 下 两 个 条 件 : 

a 与 文献 [27.25] 中 定义 的 语法 一 致 同时 还 满足 此 文献 中 的 12 条 规则 (具体 的 细节 超出 

了 本 节 的 讨论 范围 ) 。 
sm 每 -- 个 直接 或 间接 与 X 相关 的 文本 对 象 了 都 依次 是 格式 良好 的 。 注 意 :“ 直 接 或 间接 ”在 
这 里 我 们 是 指 : 和 直接 包含 与 了 的 关系 或 是 包含 与 某 一 其 他 的 原文 对 象 Z 的 关系 ， 而 Z 又 
与 Y 有 着 直接 或 间接 的 关系 。 

这 些 规则 表明 X 必须 有 一 个 精确 的 根 元 素 ， 它 通常 都 能 够 包含 其 他 的 元 素 ， 每 一 个 元 素 的 
开始 标签 都 对 应 一 个 相同 名 字 的 结束 标签 (并且 这 种 匹配 是 区 分 大 小 写 的 ) ， 元 素 的 其 套 关系 必 
须 恰当 ， 等 等 。 我 们 所 有 的 XML 文档 的 例子 都 是 满足 前 面 的 两 点 的 ， 在 此 意义 上 它 是 格式 良好 
的 (事实 上 ， 如 果 一 个 原文 对 象 不 是 格式 良好 的 ， 那 么 根据 定义 它 不 是 XML 文档 ) 。 作 为 对 照 ， 
下 面 的 一 个 原文 对 象 是 在 注释 中 指出 的 不 是 格式 良好 的 : 


<!-- Warning! This textual object is not well-formed (and --> 
<!-- so is not an XML document at all, by definition). 一 -> 
<PartsRelation> 
<PpartTuple> 
<PNUM>P1</pnum> <!-- End tag does not match start tag --> 
<PNAME>Nut <1-- Missing end tag ~~> 
</PartTuple> 
</PartTuple> <1-~ Missing start tag --> 
</PartsRelation> 
<PartsRelation> <!-- More than one root element 一 一 > 
2， 有 效 性 


一 个 原文 对 象 X 是 有 效 的 当 上 且 仅 当 它 是 格式 良好 ， 并 且 符 合 某 一 特定 的 DTD。 这 里 有 一 个 
定义 上 的 格式 良好 的 XML 文档 实例 ， 但 是 由 于 声明 中 的 原因 仍然 不 是 合法 的 。 


<!IDOCTYPE PartsRelation SYSTEM "file:///c:/parts.dtd"> 


<!-- Warning! ‘This document is well-formed (and is thus --> 
<!-- an XML document), but it is not a Valid PartsRelation --> 
<!-- document because it does not conform to the DTD for --> 
<!-- such documents as given in the "parts.dtd" file. --> 
<partsRelation> <1-- Undefined element --> 


<PartTuple CITY="London"> 





580 锚 六 部 分 ”对象 、 尖 系 寺 XML 


<PNAME>Nut</PNAME> <!-- PNUM and PNAME elements ... -~-> 
<PNUM>P1</PNUM> <1-~- ... in wrong order ~-> 
<WEIGHT>12.0</WEIGHT> 

</PartTuple> 


<PartTuple> <!-- Missing CITY attribute --> 
<PNUM>P2</PNUM> 
<PNAME>Bolt</PNAME> 
<remarks>Best quality</remarks> <!-~ Undefined element --> 
</PartTuple> “<!-~ Missing WEIGHT element --> 
</partsRelation> 


3. 类 型 ID 和 IDREF 的 属性 

如 大 家 所 见 ，DTD 支持 某 些 类 型 完整 性 约束 (属性 取 值 的 合法 性 ， 等 等 )”。 然 而 实际 上 ， 
绝 大 部 分 约束 是 非常 弱 的 〈 尤 其 对 元 素 而 言 一 一 相对 于 属性 来 讲 一 一 由 于 它们 直接 含有 实际 
的 数据 ， 所 以 在 本 质 上 根本 没有 约束 可 以 被 指定 ) 。 但 是 由 于 特殊 的 属性 type ID 和 IDREF， 
DTDs 也 还 是 支持 瞧 一 性 〈uniqueness) 和 相关 性 (referential) 约束 。 举 个 例子 ， 假 设 我 们 现 
在 对 应 整个 供应 商 - 零件 数据 库 而 不 是 部 分 的 XML 文档 指定 DTD。 那 么 这 个 DTD 可 能 含有 
如 下 的 定义 : 


<!ATTLIST SupplierTuple SNUM ID #REQUIRED> 

<1RATTLIST PartTuple PNUM ID #REQUIRED> 

<!ATTLIST ShipmentTuple SNUM IDREF #REQUIRED> 

<!ATTLIST ShipmentTuple PNUM IDREF #REQUIRED> 

(特别 要 注意 到 PartTuple 元 素 现在 有 PNUM 属性 而 不 是 PNUM 元 素 ) 。 如 果 根 据 这 个 DTD 
文档 D 是 有 效 的 ， 那 么 : 

1) DD 中 的 每 一 个 SupplierTuple 元 素 将 会 有 唯一 的 SNUM 取 值 ; 并 且 每 一 个 PartTuple 将 会 
有 了 唯一 的 PNUM 取 值 。 

2) DD 中 的 每 一 个 ShipmentTuple 元 素 将 有 一 个 SNUM 值 , 它 在 D 中 其 他 地 方 是 某 一 属性 的 
type 到 值 ; 并 且 PNUM 值 在 D 中 其 他 地 方 也 是 某 一 属性 的 type ID 值 。 

换 名 话说， 在 特征 上 type ID 有 一 点 像 主 码 ，IDREF 有 点 像 外 码 。 不 过 这 种 推理 关系 不 是 
很 强 。 

1) 只 是 简单 的 字符 串 的 键 值 我 们 是 没有 办 法 为 其 赋值 的 。 

2) 那些 含有 多 个 属性 的 键 值 我 们 是 没有 办 法 为 其 赋值 的 。( 在 上 面 的 例子 中 ， 注 意 到 我 们 
指定 ShipmentTuple 元 素 将 有 一 个 唯一 的 SNUM 值 或 PNUM 值 ) 。 

3) 在 例子 中 ，SupplierTuple 元 素 中 的 SNUM 值 不 仅仅 关于 所 有 这 样 的 元 素 是 唯一 的 ， 它 们 
关于 整个 文档 中 的 type ID 的 所 有 属性 也 是 唯一 的 。PartTuple 元 素 中 的 PNUM 取 值 类 似 。( 因此 
特别 有 ， 没 有 SNUM 会 与 PNUM 取 值 相等 ) 。 

4) 而 且 ，ShipmentTuple 元 素 中 的 SNUM 值 并 不 会 保证 与 SupplierTuple 元 素 中 的 SNUM 值 
相等 一 一 它们 仅仅 保证 与 文档 中 type IDD 的 某 一 属性 取 值 相等 。 

5) 最 重要 的 是 ， 相 关 性 约束 检查 只 是 在 单个 文档 的 上 下 文中 起 作用 。 没 有 跨 文档 的 相关 性 
约束 检查 。 

4. DTD 的 局 限 性 

我 们 已 经 知道 DTD 支持 的 完整 性 约束 是 非常 弱 的 。 实 际 上 当 第 一 次 介绍 DTD 时 ， 关 于 
DTD 的 其 他 的 许多 的 问题 就 暴露 出 来 了 。 例 如 : 

1) 它们 没有 用 XML 语法 (也 就 是 说 ， 他 们 不 是 XML 文档 ) ， 这 意味 着 它们 不 能 被 规则 的 
XML 解析 器 处 理 。 例 如 ， 考 虑 这 个 元 素 声 明 : 


<!IELEMENT PNUM (#PCDATA)> 


这 个 声明 看 起 来 有 一 点 像 XML 开始 标记 ,但 是 它 不 是 。 因 为 “! ELEMENT” 不 是 合法 的 
XML 元 素 类 型 名 ， 并 且 “PNUM” 和 “ (#PCDATA)” 不 是 合法 的 XML 属性 。 的 确 ， 如 果 





个 XML 上 下 文 完整 性 约束 问题 在 文献 [27.8] 有 详细 的 讨论 。 
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XML 真 的 如 它 所 声明 的 那样 的 通用 和 强大 ， 那 它 就 能 够 描述 它 自己 了 1!?° 

2) 本 质 上 它们 是 不 支持 数据 类 型 的 《所 有 的 东西 只 是 字符 串 ) 。 

3) 它们 要 求 不 同类 型 的 元 素 是 以 某 一 特定 的 顺序 出 现 的 ， 甚 至 那个 顺序 可 以 是 没有 什么 实 
际 意义 。 例 如 ， 假 设 PartsRelation 文档 有 一 个 包含 有 下 列 说 明 的 DTD : 


<!ELEMENT PartTuple (PNUM, PNAME, COLOR, WEIGHT, CITY)> 


那么 在 给 定 的 PartTuple 元 素 中 出 现 的 PNUM，PNAME，COLOR，WEIGHT，CITY 元 素 就 
必须 以 特定 的 顺序 出 现 ， 即 使 这 个 出 现 顺 序 在 关系 条 件 上 毫 无 意义 。 注 意 ; 在 原则 上 我 们 可 以 定 
义 一 个 允许 这 五 个 元 素 以 任意 顺序 出 现 的 DTD, 但 是 前 提 是 要 写 出 那 120 种 不 同 的 所 有 可 能 的 
情况 并 且 保 证 这 120 种 顺序 全 都 是 可 接受 。 

这 个 问题 列表 并 不 是 毫 无 疑问 的 。 

尽管 那些 问题 已 被 列 出 ,但 是 DTDs 仍然 是 很 好 的 很 重要 的 标准 ， 并 且 它 们 在 实际 中 被 广泛 
地 应 用 。 还 有 ， 现 实 的 DTDs 往往 比 我 们 所 举 的 简单 例子 更 复杂 更 全 面 。 例 如 ， 下 面 我 们 将 会 介 
绍 到 的 XML 模式 ， 它 是 由 DTD 定义 的 有 400 多 行 (参见 http://www. w3. org/2001/XMLSchema. 
dtd) 。 

5. XML 模式 

XML 模式 [27. 28] 本 身 就 是 XML 的 派生 。( 它 不 是 定义 为 XML 规范 的 一 部 分 ， 不 像 DTP 
定义 语言 。) 因此 ， 一 个 给 定 的 XML 文档 相应 的 XML 模式 本 身 就 是 XML 文档 ， 称 作 SD。 现 在 
在 文档 D 和 文档 SD 之 间 还 没有 明确 清晰 的 联系 ， 但 是 D 可 以 用 一 专门 的 属性 schemaLocation 指 
出 SD 的 位 置 。 

特别 地 ， 对 XML 文档 ，XML 模式 比 DTD 提供 了 更 广泛 的 约束 。 举 个 例子 ， 这 里 有 的 在 这 
节 前 面 “文档 类 型 定义 ”部 分 的 零件 关系 DTD 的 相应 的 XML 模式 (其 中 COLOR 和 CITY 是 作 
为 XML 的 属性 而 不 是 元 素 ) 。 


<?xml VersSion=”1.0"?> 
<!-- XML Schema schema for PartsRelation documents --> 
<!DOCTYPB xsd:schema SYSTEMH "http://www.w3.0rg/2001/XMLSchema.dtd"> 


<xsd:schema xmlns:xsd="http://www.w3.0rg/2001/XMLSchema"> 
<xsd:element name="NOTE" type="xsd:string"/> 


<xsd:element name="PartsReliation"> 
<xsd:complexType> 
<xsd:sequence> 
<xsd:element ref="NOTE" minOccurs="*0"/> 
<xsd:element name="PartTuple" type="PartTupleType" 
minoccurs="0" maxOccurs="unbounded" /> 
</xsd:sequence> 
</xsd:complexType> 
</xsd:element> 


<xsd:complexType name="PartTupleType"> 
<xsd:sequence> . 
<xsd:element name="PNUM" type="PartNum"”/> 
<xad:element name="PNAME" type="xsd:string"/> 
<xsd:element name="WEIGHT"> 
<xsd:simpleType> 
<xsd:restriction base="xsd:decimal"> 
<xsd:totalDigits value="5"/> 
<xsd:fractionDigits value="1" fixed="true"/> 
<xsd:minInclusive value="0.1"/> 
</xsd:restriction> | 
</xsd:simpleType> 
</xsd:element> 
<xsd:element ref="NOTE" minOccurs="0"/> 





僻 ”当然 ， 这 样 的 陈述 是 很 不 精确 的 。 更 精确 地 说 ， 定 义 XML 的 派生 XD ， 因 此 文档 根据 XD 有 效 这 就 是 “文档 类 
型 定义 ”一 一 当然 不 是 DTD ， 如 我 们 刚才 看 到 的 DTD 并 不 是 XML 文档 ， 但 是 ,“ 文 档 类 型 定义 ”提供 像 DTD 
一 样 的 功能 ， 并 且 更 理想 化 。 实 际 上 ，XML 模式 就 是 一 个 XD 〈 见 下 节 ) 。 
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</xsd:seguence> 

<xsd:attribute name="CITY" type="City"/> 

<xsd:attribute name="COLOR" type="Color"” default="Red"/> 
</xsd:complexType> 


<xsd:simpleType name="PartNum"> 
<xsd:restriction base="xsd:string"> 
<xsd:pattern value="P[0-9]{1,3}"/> 
</xsd:restriction> 
</xsd:simpleType> 


<xsd:simpleType name="Color"> 
<xsd:restriction base="xsd:string"> 
<xsd:enumeration value="Red"/> 
<xsd:enumeration value="Green"/> 
<xsd:enumeration value="Bluyue"/> 
</xsd:restriction> 
</xsd:simpleType> 
<xsd:simpleType name="City"> 
<xsd:restriction base="xsd:string"> 
<xsd:enumeration value="London"/> 
<xsd;enumeration value="Oslo"/> 
<xsd:enumeration value="Paris"/> 
</xsd:restriction> 
</xsd:simpleType> 


</xsd:schema> 


现在 ， 前 述 的 模式 很 明显 比 它 的 DTD 副本 更 长 更 复杂 ， 甚 至 在 规定 了 与 DTD 一 样 多 的 约束 
的 绝 大 多 数 情况 下 也 是 如 此 。 一 个 很 大 的 不 同 就 是 XML 模式 还 额外 地 在 元 素 和 属性 上 强加 某 些 
类 型 约束 。XML 模式 提供 了 一 套 固定 的 简单 类 型 一 一 布尔 型 、 浮 点 数 、 字 符 型 和 其 他 的 一 些 类 
型 一 一 还 有 某 些 内 置 的 类 型 ( 整 型 、 正 整 型 、 负 整 型 等 )， 它 们 是 根据 那些 简单 类 型 定义 的 。 它 
也 允许 用 户 根据 内 置 的 类 型 定义 用 户 自己 的 类 型 。 类 型 可 以 是 简单 的 也 可 以 是 复杂 的 ; 区 别 就 是 
复杂 类 型 的 元 素 能 够 在 里 面 租 套 地 包含 其 他 的 元 素 ， 而 简单 类 型 元 素 不 可 以 。 我 们 参考 PartsRe- 
lation 模式 来 阐明 这 些 概念 ， 它 对 PartsRelation 文档 有 如 下 的 约束 : 

1) 根 元 素 (PartsRelation) 定义 为 未 命名 的 复杂 类 型 ， 它 的 值 由 可 选 的 NOTE 元 素 ， 然 后 
是 0 个 或 多 个 类 型 为 PartTupleType 的 PartTuple 元 素 。 

2) PartTupleType 类 型 的 元 素 被 定义 依 顺 序 由 元 素 PNUM 、 元 素 PNAME 和 元 素 WEGHT 组 
成 ， 后 面 还 跟 有 属性 CITY 和 属性 COLOR ， 其 中 属性 COLOR 是 可 选择 的 〈 如 果 被 省 略 ， 那 么 它 
的 默认 值 为 红色 ) 。 在 这 些 元 素 和 属性 中 ，PNAME 定义 为 字符 串 型 ， PNUM，CITY 和 COLOR 
分 别 被 定义 为 PartNum 型 、City 型 、Color 型 (参看 第 4 点 和 第 5 点 ) 。WEIGHT 是 未 命名 的 类 
型 ， 它 的 类 型 由 系统 内 部 设 定 。( 参 看 第 3 点 ) 。 

3) WEIGHT 型 的 元 素 被 定义 为 有 约束 的 小 数 ， 它 精确 到 五 位 ， 比 例 因 数 是 1， 最 小 值 为 
0. 1 一 一 也 就 是 说 ， 合 法 的 WEIGHT 类 型 取 值 是 0. 1，0.2，…，9999.9。 

4) PartNum 类 型 (有 限制 的 字符 串 型 ) 定义 的 通用 表达 式 是 P [0 -9] 11,，31， 这 意味 着 
PartNum 类 型 的 合法 取 值 是 一 个 大 写 的 P 字 母后 面 跟 一 位 ， 两 位 或 是 三 位 十 进 制 数字 。 注 意 : 这 
种 通用 的 表示 式 结构 借鉴 于 Perl 编程 语言 。 

5) Color 和 city 类 型 (也 是 有 限制 的 字符 串 类 型 ) 被 定义 为 枚 举 类 型 。 

注意 : 之 前 的 讨论 是 没有 标准 支持 的 ， 更 重要 的 是 要 明白 XML 模式 中 的 类 型 “types” 并 不 
是 第 5 章 中 真正 的 意义 上 的 类 型 的 概念 。 特 别 地 ， 几 乎 没有 定义 相关 的 操作 符 作为 最 初始 的 类 
型 。 事 实 上 ，XML 模式 类 型 定义 “type definition” 与 COBOL 语言 和 PL/AI 语 言 中 的 PICTURE 规 
范 很 类 似 ; 也 就 是 说 ， 他 们 真正 所 做 的 就 是 为 正在 被 讨论 的 “type” 定 义 一 个 具有 特征 的 字符 串 
表达 式 。 由 于 以 上 的 部 分 原因 ， 在 之 前 的 事例 中 我 们 可 以 感觉 到 从 用 户 自 定义 类 型 (第 3 章 中 
列 的 例子 ) 角度 来 看 类 型 定义 是 自由 的 。 

对 于 作为 描述 XML 文档 的 工具 ，XML 模式 比 DTD 定义 语言 的 几 点 优势 有 : 

1) XML 模式 本 身 就 是 XML 文档 。 

2) XML 模式 支持 更 复杂 的 类 型 机 制 。 
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3) XML 模式 提供 更 简单 的 方法 (我 们 所 举 的 示例 中 没有 这 样 例子 ) 指定 在 同一 个 元 素 中 
所 含有 的 不 同类 型 元 素 ， 它 允许 它们 按 任意 顺序 出 现 。 

4) XML 模式 支持 key 和 keyref 元 素 ( 同样， 我们 所 举 的 示例 中 没有 这 样 例子 ) ， 这 些 元 素 
更 类 似 于 关系 数据 库 中 的 主 码 和 外 码 ， 它 们 能 包括 一 个 给 定 元 素 的 不 同 层 次 的 值 的 合并 ， 因 此 支 
持 其 他 的 被 称 为 “uniqueness within parent” (参看 第 13 章 中 的 文献 [1.5] ) 。 

当然 ，XML 模式 的 一 个 缺点 就 是 它 比 一 个 简单 的 DTD 复杂 得 多 。 

我 们 对 XML 模式 的 讨论 得 出 一 些 多 样 性 的 观点 : 

1) 根据 XML 模式 检查 XML 文档 叫做 模式 确认 〈 它 与 根据 DTD 只 是 进行 简单 的 有 效 性 ， 
不 合格 检查 是 不 一 样 的 ) 。 

2) 既然 模式 本 身 就 是 XML 文档， 那么 它 就 包含 有 许多 的 XML 元 素 。 然 而 要 特别 注意 ， 那 
些 元 素 中 有 许多 是 空 的 ， 典 型 地 有 ， 实 际 上 我 们 用 一 个 空 元 素 去 制定 一 个 有 属性 但 没有 属性 值 的 
元 素 ， 就 像 这 里 (参看 PartsPelation 例子 ): 


<xsd:element name="NOTE" type="xsd:string"/> 


3) 模式 也 有 它 自己 的 DTD， 由 规范 定义 〈 在 此 参看 PartsRelation 例子 ) : 


<1DOCTYPE xsd:schema [ ... ]> 


最 后 ， 我 们 强调 指出 : 对 XML 模式 一 般 性 上 的 多 样 性 (和 复杂 性 ) 的 讨论 只 是 刚刚 开始 ， 
更 详细 的 信息 ， 参 看 文献 [27. 14] 或 者 ，XML 模式 规范 [27. 28 ]。 

6. 重 述 XML 派生 

在 这 一 章 的 前 面 ， 我 们 说 XML 是 元 语言 。 也 就 是 说 ， 它 是 能 允许 用 户 定义 适合 自己 语言 的 
语言 ， 特 别 地 还 有 有 用户 自己 定义 的 标记 。 我 们 现在 说 ， 一 个 给 定 的 DTD 或 是 XML 模式 ， 确 切 
地 说 是 一 个 自 定义 语言 一 一 就 是 ， 像 这 样 我 们 前 面 说 的 “XML 派生 ”。 换 句 话 说 ， 一 个 给 定 的 
DTD 或 XML 模式 确切 地 说 就 是 遵循 相应 的 XML 文档 的 语法 规则 。 

从 前 面 所 述 来 看 ，XML 不 仅仅 是 元 语言 (metalanguage) ， 而 是 元 语言 的 元 语言 ( metameta- 
language) 。XML 在 本 质 上 定义 了 DTD 构造 规则 : 一 个 DTD 就 依次 是 定义 构造 相应 文档 规则 的 
元 语言 。 同 时 注意 所 有 的 那些 规则 主要 是 语法 规则 ; 一 般 的 XML 和 一 个 给 定 的 特定 的 DID 在 
意义 上 都 不 是 由 那些 规则 创建 出 的 文档 。 


27.5 XML 数据 操纵 


我 们 转向 XML 数据 操纵 语言 问题 。 许 多 这 样 的 语言 已 经 被 提出 ， 但 是 有 望 成 为 标准 的 是 
XQuery [27. 29] 。 如 我 们 将 看 到 ，XQuery 一 一 在 我 们 写 此 书 时 仍 在 进行 此 方面 的 工作 一 一 是 以 
几 种 早期 的 语言 为 基础 的 ， 特 别 地 包含 有 XPath [27. 27] ;实际 上 ，XQuery 完全 包含 XPath 。 

XQuery 是 只 读 的 。 如 果 和 需要 的 话 ， 更 新 必须 由 DOM [27. 24] 或 是 某 一 所 有 者 〈 明 确 地 说 
是 卖主 ) 来 完成 一 一 但 是 很 显然 这 两 种 方法 都 有 问题 : 

1) DOM 的 问题 (在 27. 3 节 中 提 到 的 ) 是 它 提 供给 程序 员 而 不 是 终端 用 户 。 

2) 用 所 有 权 工 具 的 问题 是 它们 是 私有 的 ， 并 且 与 从 一 卖主 到 另 一 卖主 不 同 。 (我 们 将 在 
27.7 节 中 详细 地 介绍 这 种 功能 ) 。 

一 种 称 为 XUpdate 独立 于 卖主 的 语言 目前 正在 发 展 中 [27. 30] ， 但 是 在 写本 书 时 它 还 处 于 
最 初级 的 阶段 ， 所 以 在 此 我 们 不 予 讨论 。 因 此 在 后 面 我 们 将 我 们 的 注意 力 只 局 限于 XQuery (和 
XPath ) 。 

XQuery 源 于 早期 语言 Quilt [27.9] ， 它 依次 被 SQL 和 OQL 影响 ， 并 且 与 老 的 XML 语言 不 
同 ， 它 还 包含 XQL，XML -QL， 和 Lorel (参见 文献 [25. 11] 中 的 关于 OQL 的 讨论 ， 及 文献 
[27.5] 和 文献 [25. 18] 中 有 关于 XQL、XML-QL 和 Lorel 的 信息 ) 。 现 在 ， 完 全 的 XQuery 语 
言 是 相当 大 而 复杂 的 ， 并 且 在 书 中 想 彻 底 地 介绍 它 也 是 不 恰当 的 。 因 此 我 们 在 这 里 只 是 简单 地 举 
一 系列 的 例子 ， 这 些 例子 足以 理解 XQuery 语言 的 一 般 的 能 力 、 范 围 以 及 它 的 本 质 。 在 我 们 能 做 
之 前 我 们 必须 解释 一 下 XQuery 并 不 是 真正 操作 在 XML 文档 之 上 的 ， 完 全 不 是 ! 理由 如 下 : 
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1) 根据 定义 XML 文档 在 本 质 上 是 字符 串 ， 这 就 意味 着 它 是 能 被 人 们 读 的 。 

2) 结果 ， 它 们 就 有 一 系列 特征 〈 标 签 、 换 行 符 、 缩 排 等 ) 那些 对 文档 可 读 性 有 所 帮助 ， 但 
是 与 文档 的 真正 有 信息 的 文本 内 容 无 关 。 

3) 当然 ， 那 些 含 有 信息 的 文本 内 容 才 是 XQuery 所 要 处 理 的 。 

因此 ，XQuery 在 本 质 上 不 是 定义 来 操作 XML 文档 的 而 是 那些 已 经 转换 为 某 一 抽象 形式 
(剖析 过 的 ) XML 文档 。 任 意 给 定 的 XML 文档 的 抽象 形式 被 称 为 一 个 XQuery 数据 模型 的 实例 
“XQuery Data Model”[27.29]; 它 可 以 被 认为 是 一 个 信息 集 ? 一 一 也 就 是 ， 层 次 一 一 像 图 27-2 
所 显示 的 那样 ( 见 27.3 节 的 XML Document Structer 子 节 ) 。 因 此 特别 注意 ，XQuery 表达 的 查询 
的 结果 是 一 个 信息 集 而 不 是 一 个 XML 文档 。 就 如 在 文献 【27. 29] 中 所 写 到 的 “transformation 
of a Data Model instance [back | into an XML document is currently an open issue”。 实 际 上 ， 计 算 
一 个 XQuery 表达 式 的 结果 可 能 甚至 不 是 一 个 严格 意义 上 的 信息 集 ， 因 为 〈 我 们 后 面 会 看 到 ) 它 
有 可 能 不 是 格式 良好 的 。 

1. XPath 

XQuery 很 大 程度 地 依赖 于 XPath 的 表达 式 ， 所 以 我 们 在 开始 时 先 对 这 种 表达 式 做 一 下 简单 
介绍 。 这 样 的 表达 式 在 概念 上 与 第 25、26 章 中 描述 的 表达 式 具 有 很 强 的 家 族 类 似 性 。 更 确切 地 
说 ，XPath 中 的 路 径 表 达 式 就 是 开始 于 某 一 给 定 的 与 源 节 点 或 是 某 一 给 定 的 信息 集中 的 节点 ， 沿 
着 一 条 具体 的 路 径 或 是 信息 集中 的 某 些 路 径 寻 找 我 们 想 要 的 目标 节点 或 节点 集 。 注 意 : 这 里 源 
(source) 和 目标 (target) 术语 并 不 是 XPath 中 的 正式 的 术语 。 

在 语句 结构 上 ，XPath 路 径 表达 式 是 由 一 系列 步骤 组 成 的 ， 每 一 步 的 开始 都 用 斜 线 “/” 与 
前 一 步 隔 开 ， 并 且 最 开始 可 以 是 一 个 或 两 个 斜 线 字符 ; 


[ /| /jastep /step ... / step 


开始 的 单个 斜 线 意 味 着 导航 是 从 根 节点 开始 ( 根 节点 即 源 节点 ); 若 开始 是 双 斜 线 意 味 着 由 
每 个 节点 依次 开始 (实际 上 ， 它 会 导致 整个 信息 集 被 搜索 ， 即 深度 优先 一 一 从 左 到 右 顺 序 遍 历 ， 
每 一 个 节点 会 依次 作为 源 节点 )。 如 果 开 始 时 根本 没有 任何 的 斜 线 ， 当 前 节点 一 一 也 就 是 ， 当 前 
访问 到 的 节点 一 一 作为 源 节点 。 

这 里 有 一 些 简单 的 例子 ， 它们 是 基于 27. 4 小 节 中 “文档 类 型 定义 ”部 分 的 PartsRelation 文 
档 (你 将 会 回想 起 来 它 含 有 零件 号 为 P1、P2、P3 的 PartTuple 元 素 ) : 

1) 表达 式 


/PartsRelation/PartTuple 


返回 对 应 于 那 三 个 零件 元 组 的 节点 。 
2) 表达 式 


/PartTuple 


返回 一 系列 空 节点 ， 因 为 根 节点 没有 PartTuple 的 孩子 。 

注意 : 这 里 的 根 节 点 不 是 PartsRelation 节点 而 是 所 有 的 文档 节点 (参见 27.3 节 中 的 对 图 
27-2 的 讨论 ) 。 同 样 的 论述 适用 于 前 面 的 例子 ， 当 然 也 适用 于 下 一 个 例子 。 

3) 表达 式 


//PartTuple 


返回 与 第 一 个 例子 一 样 的 结果 。 

通常 ， 给 定 的 路 径 表 达 式 每 一 步 计算 都 是 根据 上 一 步 的 结果 来 计算 的 《更 确切 地 说 ， 如 果 
前 一 步 的 结果 是 一 系列 SN 节点 ， 那 么 对 于 当前 步骤 SN 中 的 每 一 节点 变 成 文本 节点 )。 每 个 步骤 
含有 三 个 部 分 : 





QO 更 准确 地 说 ， 抽 象形 式 由 增 大 的 信息 集 ( 被 称 为 Post Schema Validation) 组 成 ， 被 转化 为 XQuery 数据 模型 形式 。 
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1) 一 个 轴 确 定 导航 方向 : 向 上 (父亲 节点 ， 后 代 节 点 ) ， 向 下 〈 和 孩子 节点 ， 祖 先 节点 ) ， 向 
左 〈 前 一 节点 ， 前 一 节点 的 兄弟 节点 ) ， 或 向 右 〈 后 一 节点 ， 后 一 节点 的 兄弟 节点 ) 。 

2) 一 个 节点 的 测试 ， 是 指定 感 兴趣 节点 的 类 型 。 

3) 可 以 选择 性 地 用 一 个 或 多 个 量词 来 消除 不 要 的 节点 。 

注意 : 具体 的 轴 可 以 是 “parent”、“child” 等 ,在 第 一 点 中 并 没有 列举 出 所 有 的 情况 一 一 它 
仅仅 只 是 举例 说 明 。 如 果 没 有 确定 具体 的 轴 ， 那 默认 值 就 是 “child”( 也 就 是 ， 导 航 就 从 文本 节 
点 的 孩子 节点 开始 了 ) 。 

为 了 更 详细 一 点 地 介绍 路 径 表 达 式 是 如 何 计算 的 ， 我 们 来 考虑 一 下 下 面 这 个 更 复杂 一 点 的 
例子 : 


/PartSsRelation/PartTuple[NWEIGHT="17.0"] 


解释 : 

1) 最 开始 的 “/” 强 调 了 根 节点 (也 就 是 文档 节点 ) 作为 紧 跟 下 来 一 步 的 上 下 文 节点 。 

2) 路 径 表 达 式 可 以 是 (并 且 通 常 是 ) 采用 缩写 形式 。 因 此 ， 例 子 中 的 PartsRelation 表达 式 
就 是 child: : PartsRelation 的 缩写 。 这 一 步 的 结果 就 是 PartsRelation 节点 是 根 节 点 的 唯一 的 孩子 
节点 。 

3) 类 似 地 ,， “PartTuple” 表达 式 就 是 “child:: PartTuple” 的 缩写 ; 它 产 生 了 PartsRelation 
的 三 个 PartTuple 孩子 节点 。 

4) 最 后 ， 谓 词 


{WEIGHT="17.0"] 


消除 了 所 有 的 PartTuple 节点 除了 那些 WEIGHT 值 为 17.0 的 节点 。 注 意 ; “WEIGHT” 形 式 
本 身 就 是 缩写 形式 ; 非 缩写 形式 是 : 


[child: :WEIGHT="17.0"] 


所 以 最 后 的 结果 是 对 应 于 P2 和 P3 两 个 PartTuple 节点 序列 。 

现在 我 们 对 XPath 这 一 在 之 前 的 讨论 中 起 着 至 关 重 要 的 作用 的 概念 做 一 下 简要 的 小 结 。 我 们 
已 经 看 到 在 给 定 的 路 径 表 达 式 中 的 每 一 步 的 计算 式 是 依赖 于 某 个 作为 “当前 节点 ”的 上 下 文 相 
关节 点 的 。 目 前 ， 在 SQL 系统 出 现 以 前 ， 一 个 非常 类 似 的 概念 出 现在 那些 早期 的 “手工 导航 ” 
系统 中 ， 遍 及 了 存 取 语言 ， 统 治 了 DBMS 的 市 场 ， 而 这 个 概念 导致 了 系统 复杂 性 的 产生 一 一 更 
不 要 说 编码 错误 了 。 事 实 上 ， 再 引入 这 个 概念 是 否 明智 值得 怀疑 。 

2. XQuery . . 

XPath 有 一 个 问题 就 是 它 仅仅 只 是 一 个 寻 址 的 机 制 。 它 的 路 径 表 达 式 可 以 涉及 层次 中 存在 的 
任何 节点 ， 但 是 他 却 不 能 构造 出 原来 不 存在 的 节点 。 换 句 话说，XPath 语言 有 点 类 似 于 “关系 
的 ”语言 一 一 这 个 词 用 引号 是 因为 ， 关 系 的 语言 当然 不 是 导航 式 的 一 一 它 支持 选择 、 投 影 、 但 
不 支持 连接 ?9 。 这 种 现象 是 导致 XQuery 出 现 的 部 分 原因 ; XQuery 优 于 XPath 的 一 个 主要 的 地 方 
就 是 能 够 造 出 一 个 新 的 节点 。 

我 们 在 第 一 个 例子 里 就 会 阐述 这 种 处 理 能 力 。 和 前 面 一 样 ， 我 们 再 次 假设 有 一 个 XML 文档 
PartsRelation ， 再 假设 同时 又 有 相似 结构 的 供应 商 关系 和 供 货 关 系 的 文档 。 如 下 给 出 查询 “对 于 
每 一 个 供 货 关系 ， 给 出 供应 商 名 ， 零 件 名 和 供 货 数 量 ” 的 XQuery 形式 : 


<Result> 
{ for $spx in document("ShipmentsRelation.xml") 
//ShipmentTuple, 
ssx in document{({"SuppliersRelation.xml") 
//SupplierTuple[SNUM = $3px/SNUM], 
Spx in document("PartsRelation.xml*) 





加 ”这 是 一 个 过 于 简化 的 语句 ， XPath 有 效 地 支持 一 种 笛 卡 尔 积 操作 符 〈 当然 这 是 连接 的 一 种 退化 情况 ) 。 但 它 不 支 
持 连 接 的 更 普遍 的 形式 。 
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//PartTuple[PNUM = $spx/PNUM] 
order by SNAME, PNAME 
re<REoultrupley 
{ $8x/SNAME, S$pX/PNAME, $spx/QTY } 
</ResultTuple> } 
</Result> 
解释 : 
1) 上 述 表达 式 构造 了 一 个 单独 的 结果 对 象 ， 包含 一 系列 结果 元 组 对 象 。 另 外 ,我们 注意 到 
如 果 我 们 删除 了 封闭 的 Result 标签 ， 剩 下 的 表达 式 仍然 是 一 个 合法 的 XQuery 查询 ,但 是 它 返回 
的 结果 可 能 不 很 规范 。 
2) 一 种 解释 上 述 表 达 式 (忽略 封闭 的 Result 标签 ) 语义 的 好 的 方法 ， 就 是 按照 类 似 于 关系 
积分 的 表示 方法 : 


{ SX.SNAME, PX.PNAME, SPX.QTY } WHERE SX.SNUM = SPX.SNUM 
AND PX.PNUM = SPX.PNUM 

这 个 表达 式 有 效 的 实现 了 供应 商 ， 零件 和 供 货 三 者 之 间 的 有 效 连 接 ， 然 后 将 连接 后 的 结果 在 
SNAME，PNAME， 和 QTY 上 作 投 影 。 注 意 : 我 们 没有 给 出 XQuery 中 类 似 于 “order by” 功 
能 的 操作 ， 因 为 “order by” 不 是 一 个 关系 的 操作 。 同 时 ， 我们 采用 了 传统 的 习惯 使 用 范围 
变量 名 (SX、PX、SPX 都 分 别 是 建立 在 供应 商 、 零 件 、 供 货 关 系 上 的 范围 变量 )。 最 后 ， 
我 们 略 去 了 这 样 一 个 事实 ,关系 的 表达 式 会 自动 地 消除 重复 元 组 ， 而 XQuery 表达 式 却 
不 能 。 

3) 在 前 面 的 章节 中 说 到 过 ，XQuery 中 的 变量 $sx，$ px，$ spx 充当 了 类 似 于 关系 上 的 微 
积分 中 范围 变量 的 角色 ， 然 而 ， 微 积分 容易 让 人 产生 误解 ; XQuery 的 表示 形式 和 关系 的 表示 形 
式 不 很 相似 ， 因 为 就 像 你 能 看 到 的 那样 ，XQuery 显得 更 为 程序 化 (这 里 你 可 以 参考 127.3] 中 
的 解释 ) 。 事 实 上 ，XQuery 的 表 式 形式 看 起 来 更 类 似 于 如 下 骨 套 - 循环 的 表 式 形式 〈 这 里 用 了 
伪 代 码 的 形式 ， 用 “. ”来 代替 “/” 操 作 符 ) : 


do for each shipment $spx }; 
do for each supplier $sx where $sx.snum = $spx.8snum ; 
do for each part $px where S$px.pnum = $spx.Ppnum ; 
ent Ssx.SNANME，S$pPx.PNAME，S$spx-QITY } ; 
end do :; " 
end do ;} 
看 起 来 $ sx，$ px， 和 $ spx 比 起 它们 作为 范围 变量 的 情况 ， 更 像 是 循环 控制 变量 (在 传统 
的 编程 理解 中 ) 。 还 有 就 是 在 外 层 循环 中 我 们 要 对 shipment 进行 重复 ; 也 就 是 我 们 要 先 引入 循环 
控制 变量 $ spx， 因 为 另 两 个 变量 是 通过 它 来 定义 的 一 一 事实 上 优化 器 这 样 做 一 定 是 有 含义 的 。 
相反 ， 另 两 个 变量 $ sx 和 $ px 可 以 是 任意 顺序 。 尽 管 优化 器 这 样 安排 顺序 有 什么 意思 本 身 就 是 
一 个 有 意思 的 问题 。 至 少 我 们 知道 变量 被 引入 的 顺序 对 结果 对 象 的 产生 顺序 是 有 一 定 影响 的 
( 见 第 7 点 中 对 returm 子 句 的 讨论 ) ; 所 以 一 般 说 来 ，XQuery 中 表达 式 A JOIN B 和 B JOIN A 并 
不 相等 。 
按照 如 上 的 推论 看 来 ， 可 以 知道 ，XQuery 相对 于 一 种 程序 语言 来 说 ， 更 像 是 一 种 终端 用 户 
查询 语言 。 
4) 现在 我 们 来 关注 一 下 for 子 句 ， 尤 其 是 子 句 中 位 于 第 一 个 逗号 之 前 的 部 分 。 表 达 式 


document ("ShipmentsRelation.xml") 


返回 的 是 解析 过 的 XML 文档 包含 在 名 为 ShipmentsRelation. xmi 的 文件 中 ， 所 有 的 文档 节点 
都 作为 上 下 文 节点 。 注 释 “//ShipmentTuple” 的 意思 是 我 们 感 兴趣 于 文档 中 的 ShipmentTuple 对 
象 。 而 注释 “for $ spx in” 的 意思 是 那些 供 货 元 组 在 文档 中 出 现 的 顺序 ， 它们 轮流 作为 变量 
$ spx 的 值 。 

5) for 子 句 的 下 一 个 部 分 一 一 
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$sx in document ("SuppliersRelation.xml" 
//SupplierTuple[SNUM = Sor ys 


也 是 类 似 的 ， 除 了 变量 $ sx 只 覆盖 满足 条 件 SNUM 的 值 等 于 $ spx 的 当前 值 的 那些 供应 商 。 

6) for 子 句 的 最 后 一 部 分 也 是 类 似 的 情况 。 

7) 变量 $ sx，$ px，$ spx 的 值 每 合并 一 次 ， 就 执行 一 次 return 子 句 ， 顺 序 就 是 for 子 句 产 
生出 值 的 顺序 。 所 以 ， 在 例子 中 ，retum 子 句 返回 产生 ResultTuple 对 象 的 顺序 受 如 下 规则 指导 : 
$ sx 的 值 改变 得 最 快 ，$ px 的 值 次 之 ，$ spx 的 值 改 变 最 慢 。 

8) order by 子 句 或 多 或 少 是 自 解释 的 。 然 而 要 注意 的 是 ， 它 会 出 现在 相应 的 return 子 句 之 
前 。 这 样 的 位 置 关 系 允 许 结果 在 值 的 基础 上 排列 顺序 ， 尽 管 值 并 不 真正 出 现在 结果 中 (就 像 如 
下 的 这 个 SQL 查询 : SELECT CITY FROM P ORDER BY WEIGHT ) 。 然 而 从 概念 上 来 说 ， 始 终 
是 retum 子 句 先 被 执行 ， 因 为 排序 只 有 在 有 结果 的 基础 上 才能 进行 。 

这 里 是 第 二 个 例子 (查询 有 两 个 以 上 供应 商 供应 的 零件 导 和 供 货 总 数 ) 

or ST Lvalues (document ("shipmenteRelation. xml")/ /PNUM) 

let $spx := document ("ShipmentsRelation.xml") 

//ShipmentTuple{PNUM = $pnum] 

where count ( S$spx ) > 1 

order by PNUM 

return 

<Result> 
{ $pnum, 
<totqty> { sum ( $spx/qty ) } </totqty> } 
</Result> 

1) 这 个 例子 是 一 个 完整 的 FLWOR 表达 式 (FLWOR = for + let + where + order by + return; 
读 作 flower) 。 

2) 注意 这 里 使 用 了 distinct- values 来 去 掉 for 子 句 里 重复 的 part 号 ; $ pnum 只 包括 了 不 同 的 
shipment part 号 。 

3) let 子 句 不 同 于 for 子 名 ， 指 定 的 变量 不 重复 每 个 变量 的 具体 值 而 是 赋予 一 个 整体 的 值 序 
列 。 此 外 ， 在 这 个 例子 中 ，let 子 句 将 轮流 评估 每 个 不 同 的 shipment part 号 ， 因 为 它 是 戏 人 在 for 
子 句 里 的 。 

4) Where 子 句 中 仅 当 当前 shipment 的 序列 长 度 大 于 1 时 ， 才 会 考虑 表达 式 的 其 余部 分 。 
XQUERY 支持 一 般 的 聚集 操作 例如 count 、sum 、avg 和 min。 

5) 同样 ， 我 们 必须 得 说 全 部 的 表达 式 看 上 去 相当 程序 化 。 伪 代码 的 变 体 如 下 : 

do for each distinct shipment part number $pnum ; 

do for all shipments $spx where $spx.pnum = $pnum ; 
if ( count of such shipments $spx ) > 1 then 
emEt $pnum, sum ( $spx.qty ) } ; 


end do ; 
end do ; 


对 应 的 关系 语句 : 


{ SPX.PNUM, SUM ( SPY WHERE SPY.PNUM = SPX.PNUM, QTY ) } 
WHERE COUNT ( SPY WHERE SPY.PNUM ~ SPX.PNUM ) > 1 


到 目前 为 止 ， 我 们 的 例子 可 能 还 是 有 些 不 切实 际 ， 严 格 的 说 他 们 有 些 关联 ， 通 常 它们 很 少 利 
用 XML 文档 的 层次 特性 。 所 以 ， 下 面 进 行 重新 设计 。 首 先 ， 是 PartsRelation 文件 和 以 前 完全 一 
样 。 代 替 SuppliersRelation 和 Shipment 文档 中 ， 然 而 ， 假 设 我 们 有 一 个 SuppliersOverShipments 文 
档 ， 在 其 中 : 

1) 根 元 素 包 括 一 系列 的 供应 商 元 素 。 

2) 在 一 系列 的 货物 元 素 之 后 ， 每 一 个 供应 商 元 素 包 含 SNUM、SNAME、STATUS 和 CITY 
元 素 。 

3) 每 一 个 货物 元 素 包 含 一 个 PNUM 元 素 和 QTY 元 素 。 


588 ”” 荔 六 部 分 “对 槛 、 关 系 和 XML 
如 图 27-4 所 示 : 
现在 来 研究 两 个 查询 “找到 支持 零件 P2 的 供应 商 ” 和 “找到 由 供应 商 S2 提供 的 零件 。 下 
面 是 相关 的 公式 表达 : 





图 27-4 ”供应 商 和 货运 的 层次 结构 


SX WHERE EXISTS SPX ( SPX.SNUM = SX.SNUM AND SPX.PNUM = "ee" 小 


PX WHERE EXISTS SPX ( SPX.PNUM = PX:PNUM AND SPX.SNUM = "S25 


注意 : 简 而 言 之 , 我 们 假定 SNUM 和 PNUM 的 值 是 简单 的 字符 串 ， 不 是 某 种 用 户 特定 的 
类 型 。 

下 面 是 对 第 一 个 查询 的 XQuery 公式 表达 : 

for $sx in document ("SuppliersOverShipments .xml")//Supplier 

where $sx//PNUM = "P2" 

pe 


{ $sx//SNUM, $sx//SNAME, $sx//STATUS, $sx//CITY } 
</Result> 


下 面 是 对 第 二 个 查询 的 XQuery 公式 表达 : 


let S$sx := document("SuppliersOverShipments .xml") 
//Supplier[SNUM = "S2"] 
return 
<Result> 
document ("PartsRelation.xml") 
//PartTuple[PNUM = $sx//PNUM] } 
</Result> 


正如 我 们 所 看 到 的 ，XQuery 形式 与 其 他 形式 相 比 更 少 的 具有 相称 性 。 因 为 包含 XML 设计 的 
不 相称 (分 等 级 ) 的 类 型 。 

我 们 总 结 一 下 这 部 分 的 相关 特征 。 

m XQuery 像 SQL 一 样 作为 原始 的 公式 表达 -[4.9 <4. 31EE] ;没有 外 在 的 连接 支持 。 实际 上 ， 
参考 [27. 29] 详细 的 证 明 [ FLWOR expressions are] 对 计算 连接 是 很 有 用 处 的 。 更 有 力 
的 证 明了 ， 用 户 必须 详细 说 明 任 何 涉及 这 样 计算 的 步 又 顺序 。 然而 ， 它 通过 复制 限制 ， 包 
含 了 外 在 合并 ,交叉 和 不 同 (其 他 的 ) 的 支持 。 ' 

sm XQuery 也 包括 对 有 关 存 在 的 普遍 的 量词 的 外 在 支持 。 下 面 是 两 个 例子 : 


some $x in ( 2, 4, 8 ) satisfies #7 
every $x in ( 2, 4, 8 ) satisfies $x < 7 


第 一 个 表达 式 是 求 正确 的 值 ， 第 二 个 是 求 错误 的 值 。 
m 正如 第 7、8 节 所 解释 的 ， 关 系 模型 包含 二 个 与 completeness 有 联系 〈 且 重要 ) 的 概念 。 
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一 般 来 说 ， 似 乎 没有 同 XQuery 和 XML 类 似 的 概念 2 。 
27. 6 XML 和 数据 库 


现在 我 们 开始 考虑 本 章 所 讨论 的 数据 库 问 题 之 间 的 关系 。 毫 无 疑问 ， 我 们 需要 把 XML 文 
档 一 一 也 许 我 们 应 该 说 是 XML 数据 ， 存 储 到 数据 库 中 ; 还 要 按 要 求 来 检索 和 更 新 数据 。 实 际 
上 ， 还 有 相反 的 要 求 ， 也 就 是 可 以 处 理 “ 规 范 的 ”或 非 XML 的 数据 ， 尤 其 是 一 些 查询 的 结果 ， 
需要 把 它们 转换 成 XML 格式 ， 以 便 它 能 以 XML 文档 形式 传输 给 另 一 个 用 户 。 这 里 我 们 主要 讨 
论 前 一 个 要 求 。 
很 显然 ， 我 们 可 以 按 三 种 基本 方式 把 XML 文档 存储 到 数据 库 中 : 
1) 我 们 可 以 用 一 个 元 组 的 某 个 属性 值 来 存储 整个 文档 。 
2) 我 们 可 以 把 文档 划分 成 块 ， 用 不 同 关 系 的 不 同 元 组 的 不 同属 性 值 来 存储 这 些小 块 。 
3) 我 们 不 用 传统 的 数据 库 来 存储 文档 ， 而 是 用 native XML 数据 库 ( 例如 那些 存储 XML 文 
档 而 不 是 关系 表 的 数据 库 ) 。 
我 们 将 依次 来 考虑 这 三 种 存储 方式 。 
1. 以 属性 值 来 存储 文档 
我 们 在 27. 3 节 的 “XML 的 发 展 ”部 分 接触 过 这 种 存储 方式 ， 我 们 提 到 可 以 扩展 关系 变量 
来 包含 DRAWING 和 DESCRIPTION 属性 。 基 本 观点 如 下 : 
se 首先 ， 我们 定义 一 个 新 的 数据 类 型 ， 称 为 XMLDOC， 它 的 值 是 XML 文档 ， 然 后 我 们 就 可 
以 把 给 定 的 关系 变量 的 某 个 属性 定义 为 这 种 特殊 数据 类 型 。 注 意 : 我 们 已 经 看 到 ，XML 
有 些 元 长 : 一 个 XML 文档 的 大 小 可 能 是 它 表示 的 原始 数据 的 5 到 10 倍 ， 如 果 直 接 处 理 原 
数据 会 非常 低 效 。 在 内 部 以 压缩 的 形式 (或 分 列 的 方式 ) 存储 这 些 文档 将 会 有 很 大 的 改 
善 。 当 然 ， 这 种 考虑 与 模型 无 关 。 
s 包含 XMLDOC 的 元 组 可 以 利用 传统 的 关系 操作 INSERT 和 DELETE 进行 插入 和 删除 ， 元 
组 中 的 XMLDOC 值 也 可 以 利用 方便 的 关系 操作 UPDATE 整体 替换 。 当 然 ，XMLDOC 值 
也 可 以 按照 传统 的 方式 进行 只 读 操 作 。 
s 像 所 有 数据 类 型 一 样 ，XMLDOC 类 型 也 将 有 一 组 相关 的 操作 符 。 这 些 正在 讨论 之 中 的 操 
作 将 对 XMLDOC 属性 进行 粒度 更 细 的 检索 和 更 新 操作 ， 例 如 : 支持 访问 单个 的 元 素 或 属 
性 结 点 。 查 询 方面 的 操作 符 可 能 将 类 似 于 XQuery 中 的 相应 操作 ; 这 些 操 作 甚至 提供 接口 
供 XQuery 直接 调用 。 当 然 native 方式 也 许 更 有 友好 性 。 然 而 ， 更 新 操作 也 应 该 支持 。 
m 还 需要 提供 一 些 操作 符 ， 来 判断 一 个 给 定 的 XMLDOC 值 是 否 符合 指定 的 DTD 或 XML 模 
式 ， 也 就 是 是 否 有 效 。 ( 当然 ，XMLDOC 值 定义 必须 是 结构 良好 的 ， 但 它 未 必 就 是 无 效 
的 。) 
注意 : 这 第 一 种 方法 ， 把 整个 文档 存储 为 属性 值 ， 有 时 在 一 些 文献 和 应 用 中 被 不 正式 地 称 为 
XML 列 。 这 种 方法 适合 的 情况 是 : 
二 文档 已 经 存在 
= 文档 通常 被 整体 而 不 是 部 分 地 处 理 
ae 文档 很 少 更 新 . 
sa 数据 检索 通常 是 基于 一 个 小 的 、 已 知 的 元 素 集 或 属性 集 
se 文档 为 了 审计 要 求 完整 存放 
总 之 ， 这 种 方法 适合 于 文档 为 中 心 的 应 用 [27.7]， 也 就 是 说 这 些 文 档 主要 是 供 人 们 来 阅 
并 且 它 们 主要 用 自然 语言 书写 。 
2. 划分 与 发 布 
第 二 种 方法 没有 定义 任何 新 的 数据 类 型 。XML 文档 被 划分 成 块 一 一 例如 : 一 个 个 的 XML 


读 


= 





名 ”Except perhaps for fower power? ( 抱 娄 ， 但 是 诱惑 太 大 难以 抵挡 ) 。 
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元 素 和 属性 一 一 然后 用 不 同 的 关系 的 不 同属 性 值 来 存储 这 些小 块 ” 。 注 意 : 这 种 情况 下 数据 库 中 
不 包含 整个 的 XML 文档 、DBMS 对 这 些 文档 一 无 所 知 ， 因 此 ，DBMS 不 能 创建 出 XML 文档 ， 
而 是 由 应 用 程序 ( 可 能 是 一 个 Web 服务 器 ) 来 将 那些 属性 值 按照 某 种 方式 组 合 而 成 的 。 

由 于 应 用 程序 可 以 从 数据 库 中 规范 的 数据 生成 XML 文档 ， 我 们 就 可 以 达到 了 我 们 原先 的 第 
二 个 目的 ,也 就 是 说 ,我 们 拥有 了 从 规范 数据 ( 非 XML 数据 ) 中 得 到 查询 结果 并 转换 成 XML 
形式 的 方法 。 这 一 转换 被 称 为 发 布 (正在 讨论 中 的 数据 ) 。 因 此 在 这 样 背景 下 ， 发 布 这 个 词 ， 在 
某 种 意义 上 就 是 与 划分 相反 。 我 们 以 前 曾经 谈 及 ， 划 分 与 发 布 之 间 的 转换 规则 本 身 通常 是 包含 在 
XML 文档 格式 中 。 

顺便 担 一下， 将 非 XML 数据 发 布 成 XML 形式 的 数据 的 能 力也 被 认为 是 在 非 XML 数据 上 建 
立 XML 视图 的 能 力 。( 更 精确 地 说 ， 这 种 发 布 用 于 支持 XML 视图 以 检索 数据 。 如 果 要 更 新 这 种 
视图 的 话 ， 那 就 要 支持 相应 的 划分 函数 。) 毕竟 ， 用 第 2 章 的 术语 讲 ， 就 是 没有 原因 要 求 系统 的 
外 部 和 概念 层 必须 建立 于 同一 个 数据 模型 之 上 ; 实际 上 ， 我 们 曾 在 第 3 章 提 到 过 ， 当 一 个 系统 的 
外 部 视图 是 层次 模型 时 ， 其 概念 层 也 是 可 以 采用 关系 模型 的 。 唯 一 的 硬性 要 求 ， 就 是 在 这 两 者 之 
间 是 可 逆转 换 的 。 

XML 模型 可 以 认为 是 从 另 一 个 视角 看 待 的 传统 的 层次 模型 ; 这 种 模型 与 关系 模型 之 间 的 转 
换 ， 由 于 所 谓 的 阻抗 失 配 (impedance mismatch) 的 原因 一 一 参见 第 25 章 一 一 还 存在 一 些 问题 。 
一 个 问题 是 ， 在 层次 模型 中 ， 一 个 结 点 的 孩子 结 点 不 是 组 成 一 个 集合 ， 而 是 一 个 序列 (也 就 是 
说 它们 是 有 序 的 ) ， 但 是 一 个 关系 中 的 元 组 却 是 无 序 的 。 因 此 ， 当 把 一 个 XML 文档 D 进行 划分 
并 存储 到 关系 数据 库 时 ,文档 D 的 某 些 方面 (信息 的 或 者 其 他 的 ) 可 能 会 丢失 。 如 果真 是 这 样 ， 
那 将 不 能 保证 文档 D 以 XML 形式 发 布 后 的 形态 能 与 其 原本 的 形态 完全 一 样 。 尤 其 是 这 两 种 形态 
的 文档 中 的 空格 可 能 会 有 所 不 同 。 

注意 :“ 划 分 与 发 布 ”这 种 方法 有 时 候 也 被 非 正 式 地 称 为 XML 聚集 。 这 种 方法 可 能 适用 于 
如 下 的 情况 : 

a 数据 已 经 存放 于 关系 数据 库 中 ， 且 必须 与 XML 文档 中 相应 的 数据 相 作 用 。 

m 只 有 文档 中 的 文本 部 分 需要 原样 地 保存 (标签 可 以 抽取 成 关系 属性 名 ) 。 

a 操作 通常 是 施加 于 单个 的 元 素 和 属性 结 点 。 

s 更 新 频繁 ， 且 很 注重 更 新 的 性 能 。 

sa 处 理 程序 使 用 现 有 的 关系 界面 。 

总 之 ,“ 划 分 与 发 布 ”方法 适用 于 所 谓 的 以 数据 为 中 心 的 应 用 [27.7]。 也 就 是 ， 该 应 用 中 
的 文档 通常 是 用 可 操作 性 的 或 支持 决策 的 信息 描述 ， 而 不 是 自然 语言 描述 。 

3. XML 数据 库 

我 们 在 此 提 到 这 第 3 种 方法 主要 是 为 了 介绍 的 完整 性 。 毕 竟 ， 我 们 已 经 在 第 3 章 中 看 到 ， 用 
关系 模型 描述 任何 形式 的 数据 ， 是 足够 了 的 也 是 必需 的 。 我 们 也 知道 现在 在 关系 数据 库 的 研究 、 
开发 和 商业 产品 中 有 大 量 的 投资 ， 这 些 可 以 称 为 关系 基础 结构 (也 就 是 ， 支 持 恢 复 、 并 发 、 安 
全 和 优化 一 一 更 不 要 说 完整 性 了 ! 一 一 其 他 的 主题 我 们 也 在 本 书 中 讨论 过 。) 因此 ， 在 我 们 看 
来 ， 着 手 开发 一 种 全 新 的 数据 库 技术 是 非常 不 明智 的 ， 因 为 这 么 做 好 像 是 没有 任何 具有 说 服 力 的 
理由 的 一 一 更 不 要 说 ， 这 样 的 技术 显然 也 会 遇 到 层次 数据 库 技术 所 遇 到 的 类 似 问 题 (请 参考 第 
13 章 或 者 文献 【1.5] 或 者 文献 [27.3，27.6] 的 注释 ) 。 


27.7 SQL 的 支持 


在 制定 现行 的 SQL 规范 时 ， 并 没有 支持 XML， 但 是 在 下 一 版 本 规范 中 的 第 14 部 分 (可 能 
是 2003 年 )，SQL/XML [27.15] 可 能 会 支持 一 些 此 类 功能 。 在 本 节 ， 我 们 展望 这 些 功能 的 概 





OG ”这 种 方法 的 一 个 特例 是 ， 将 整个 文档 看 作 是 一 个 字符 串 ， 存 在 一 个 元 组 的 某 个 属性 中 。 注 意 : 这 种 方法 和 先前 
介绍 的 方法 不 是 互相 矛盾 的 。 每 一 种 方法 都 可 能 是 合适 的 ， 这 取决 于 我 们 要 对 数据 进行 怎样 的 处 理 ， 我 们 其 至 
可 能 在 同一 个 文档 上 同时 使 用 两 种 方法 。 





筑 27 量 至 详 网 与 XML 597 


况 ; 然而 ， 这 并 不 等 于 说 ， 我 们 所 提 到 的 这 些 功能 ， 直 到 SQL/XML 得 到 正式 批准 后 才能 得 到 
支持 。 

1. XML 聚集 

注意 : 原文 在 本 节 的 某 些 地 方 把 “SQL” 等 价 于 “关系 的 ”， 例 如 SQL database，SQL data， 
SQL form 等 ， 译 者 认为 这 可 能 有 误 。 因 此 我 们 将 上 述 的 词 相应 应 地 译 成 关系 数据 库 ， 关系 数据 ， 
关系 形式 。 一 一 译 者 

从 我 们 在 前 面 的 章节 的 讨论 中 可 以 知道 ， 有 两 种 基本 的 方法 来 存储 XML 数据 到 一 个 关系 数 
据 库 中 一 一 XML 聚集 与 XML 列 ， 而 SQL/XML 则 两 者 都 支持 。( 由 于 众所周知 的 原因 ， 它 不 支 
持 native XML 数据 库 以 及 类 似 的 数据 库 。) 在 本 小 节 中 ， 我 们 侧重 于 “XML 聚集 ”的 支持 。 

我 们 在 第 27. 6 节 中 已 经 看 到 “XML 聚集 ”与 DBMS 没有 任何 一 点 关系 ( 它 是 通过 一 些 应 
用 程序 来 起 作用 的 ， 例 如 运行 于 DBMS 之 上 的 Web 服务 器 ) ; 你 可 能 会 觉得 有 点 奇怪 ， 竟 然 还 
要 在 SQL 规范 里 添加 支持 “XML 聚集 "! 这 些 支持 的 基本 构成 如 下 : 

s 把 关系 字符 串 、 标 识 符 、 数 据 类 型 ” ， 数 值 转换 成 相应 的 XML 字符 串 ， 名 称 ， 数 据 类 型 ， 

数据 的 规则 。 
s 把 一 个 关系 表 或 者 关系 表 集 合 转换 成 两 个 XML 文档 一 一 其 一 包含 数据 之 类 的 东西 ， 另 一 
个 则 是 相应 的 XML 模式 文档 。 

这 些 规则 结合 在 一 起 ， 将 指导 如 何 把 关系 数据 转换 成 XML 形式 。 等 价 地 ， 它 们 也 支持 我 们 
在 前 一 节 所 提 到 的 关系 数据 的 XML 视图 (尽管 是 只 读 的 ) 。 因 此 它们 也 提供 了 在 这 些 数据 上 处 
理 XQuery 的 基础 。 但 是 需要 注意 ，SQL/XML 并 没有 定义 可 逆 的 处 理 规则 : 也 就 是 把 XML 数据 
划分 成 关系 形式 (有些 少数 的 例外 情况 包含 了 把 XML 字符 串 和 标签 转换 成 关系 字符 串 和 标识 符 
的 规则 ) 。 

借用 我 们 常用 的 零件 关系 变量 P 来 举 一 个 例子 ， 下 面 是 该 表 的 简化 了 的 SQL 定义 :9 

CREATE TABLE P 

( PNUM CHAR(6), 
PNAME CHAR(20), 
COLOR CHAR 


(6), 
WEIGHT NUNERIC(S5,1), 
CITY CHAR(20) ) ; 


假设 该 关系 表 仅 仅 含有 两 个 零件 P 和 P2， 那 么 它 转换 成 XML 形式 后 ， 如 下 所 示 : 


<Pp> 
<row> . 
<PNUM>P1</PNUM> 
<PNAME>Nut</PNAME> 
<COLOR>Red</COLOR> 
<WEIGHT>12.0</WEIGHT> 
<CITY>London</CITY> 
</row> 
<row> 
<PNUM>P2< /PNUM> 
<PNAME>Bolt</PNAME> 
<COLOR>Green</COLOR> 
<WEIGHT>17 .0</WEIGHT> 
<CITY>Paris</CITY> 
</row> 
</P> 


辐 时， 也 会 产生 一 个 模式 文档 ， 如 下 所 示 : 


<xsd:schema xmlns:xsd="http;//www.w3.0rg/2001/XMLSchema"> 


<xsd:simpleType name="CHAR 6"> 





”编写 本 书 时 ， 还 不 支持 结构 类 型 。 
全 这 里 的 简化 包括 ， 省 略 了 PRIMARY KEY 子 句 一 因为 文献 [17.15] 中 没有 就 如 何 把 主 码 转换 成 XML 这 个 问 


题 进行 结论 ; 我 们 也 不 考虑 用 户 自 定义 的 类 型 、NOT NULL 的 限定 。 
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<xsd:restriction base="xsd:string"> 
<xsd:length value="6"/> 
</xsd:restriction> 
</xsd:simpleType> 


<xsd:simpleType name="CHAR 20"> 
<xsd:;restriction base="x8d:string"> 
<xsd:length value="20"/> 
</xsd:restriction> 
</xsd:simpleType> 


<xsd:simpleType name="DECIMAL 5 1"> 
<xsd:restriction base="xsd:decimal"> 
<xsd:totalDigits value="5"/> 
<xsd:fractionDigits value="1"/> 
</xsd:restriction> 
</xsd:simpleType> 
<xsd:complexType name="RowType.P"> 
<xsd:sequence> 
<xsd:element name="PNUM" type="CHAR 6"/> 
<xad:element name="PNAME" type="CHAR 20"/> 
<xsd:element name="COLOR" type="CHAR 6"/> 
<xsd:element name="WEIGHT" type="DECIMAL 5 1"/> 
<xsd:element name="CITY" type="CHAR 20"/> 一 
</xsd:sequence> 
</xsd:complexType> 


<xsd:complexType name="TableType.P"> 
<xsd:sequence> 
<xsd:element name="roOw" type="RowType.P" 
minOccurs="0" 
maxOccurs="unbounded"/> 
</xsd:sequence> 
</xsd:complexType> 


<xsd:element name="Pp" type="TableType.P"/> 


</xad:schema> 


2. XML 列 
我 们 接 下 来 讨论 SQL 对 XML 列 的 支持 。SQL/XML 引入 了 一 个 新 的 数据 类 型 ， 简 称 为 XML 
(而 不 是 第 27. 6 节 中 所 说 的 XMLDOC ) 。 该 类 型 的 数值 主要 是 XML 文档 或 者 XML 片断 一 一 这 
里 的 片断 这 个 词 ， 意 思 是 指 单个 的 XML 元 素 结 点 或 者 元 素 节 点 序列 。 很 多 的 操作 将 会 从 传统 的 
关系 数据 中 派生 或 产生 XML 类 型 的 数据 。 下 面 是 一 个 简单 的 例子 : 
INSERT INTO RESULT ( XMLCOL) 
SELECT XMLGEN ( ‘'<Result> 
<SNAME>{SX.SNAME}</SNAME> 
<PNAME> {PX .PNAME}</PNAME> 
<QTY>{SPX .QTY}</QTY> 
</Result>', 
SX.SNAME, PX.PNAME, SPX.QTY ) AS Result 
FROM S AS SX, P AS PX, SP AS SPX 


WHERE SX.SNUM = SPX.SNUM 
AND PX.PNUM = SPX.PNUM ; 


我 们 假定 关系 表 RESULT 的 XMLCOL 列 是 XML 类 型 。 这 个 例子 与 第 27.5 节 中 的 第 一 个 
XQuery 例子 相 类 似 但 不 矛盾 。 因 为 在 写本 书 时 XQuery 还 在 “不 断 的 完善 ”中 ， 而 XMLGEN 则 
是 基于 XQuery， 这 意味 着 XMLGEN 在 SQL/XML 规范 得 到 批准 以 前 注定 是 要 改变 的 。 

再 重复 一 次 : SQL/XML 引入 了 新 的 数据 类 型 XML; 但 是 它 几乎 没有 定义 对 该 类 型 数据 的 
操作 一 一 但 不 是 绝对 的 没有 ”! 事实 上 , 文献 [27. 15] 提 到 , “如 果 JI 和 也 都 是 XML 类 型 ， 
那么 Vi 和 V2 是 否 相 同 ， 与 实现 是 相关 的 。 但 是 这 种 状况 应 该 在 SQL/ZXML 得 到 正式 批准 前 有 





@ SQLLXML 定义 了 一 个 称 为 XMLSERIALIZE 的 操作 ， 该 操作 把 XML 类 型 的 数值 转换 成 字符 训 形 式 。SQL/LXML 
还 定义 了 另 一 个 操作 ， 称 为 XMLPARSE， 来 进行 相反 的 操作 一 一 也 就 是 说 ， 把 字符 串 形 式 的 XML 文档 或 者 文 
档 片断 转换 成 XML 类 型 的 数值 。 在 这 转换 之 间 ， 那 两 个 操作 提供 了 一 些 划分 和 发 布 的 功能 。 
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所 改进 。 另 外 ,文献 [27. 11] 建议 同时 (或 者 延 后 一 些 时 间 ) 还 要 支持 下 列 的 功能 : 

提供 接口 以 支持 Xpath 或 者 Xquery。 

# 检查 一 个 给 定 的 XML 类 型 的 数值 是 否 是 结构 良好 的 XML 元 素 ， 或 者 是 否 是 一 个 有 效 的 

XML 文档 ,或 者 是 否 符合 某 个 给 定 的 XML 模式 等 。 

即使 增加 了 这 些 功 能 ，SQL/XML 对 XML 数据 的 访问 也 只 能 是 只 读 方式 ， 而 不 考虑 XML 的 
大 多 数 native 访问 方式 。 

3. 专 有 的 支持 

正如 第 27.5 节 所 提 到 的 那样 ， 一 些 关 系数 据 库 产 品 (例如 DB2 、Oracle) 含有 专 有 的 支持 
来 访问 和 更 新 XML 数据 。 在 这 里 我 们 不 打算 深入 讨论 特定 的 支持 情况 ， 而 是 有 选择 地 举 一 些 例 
子 来 说 明 此 类 产品 通常 提供 的 功能 。 所 举 的 例子 基本 上 是 基于 IBM 的 DB2 产品 中 的 “XML Ex- 
tender”， 但 是 我 们 适当 地 作 了 简化 ， 删 除了 与 我 们 讲述 目的 无 关 的 方面 。 

“XML Extender” 利 用 SQL 对 用 户 自 定义 函数 的 支持 〈 请 参考 第 5 章 ) ， 提 供 了 一 套 〈 从 用 
户 角 度 看 是 事实 上 的 ) 内 内 函 数 。 这 些 函 数 由 SQL 来 调用 ， 提 供 XML 检索 和 更 新 的 功能 。 后 面 
我 们 要 举例 说 明 的 函数 包括 XMLFILETOCLOB, XMLCONTENT, XMLEXTRACTREAL 和 XM- 
LUPDATE (这 些 不 是 它们 在 系统 中 真实 的 名 字 ) ， 它 们 主要 提供 如 下 的 功能 : 

把 一 个 文档 存储 成 一 个 关系 属性 值 。 

示例 : 下 面 的 UPDATE 语句 使 用 函数 XMLFILETOCLOB 把 外 部 名 称 为 BoltDrawing. svg 的 
XML 文档 转换 成 CLOB 类 型 ， 然 后 把 该 CLOB 字符 串 存 到 关系 表 P 的 零件 P2 的 属性 列 DRAW- 
ING 中 。 


UPDRTE P 
SET DRAWING = XMLFILETOCLOB ( ’'BoltDrawing.svg' )} 
WHERE PNUM = 'P2' 


当然 我 们 假定 关系 表 P 是 有 属性 列 DRAWING 的 ， 且 其 数据 类 型 为 CLOB。 

se 读 取 一 个 CLOB 类 型 的 属性 值 。 

示例 : 下 面 的 SELECT 语句 ， 读 取 前 面 例子 所 存 中 的 CLOB 型 数值 ， 把 它 以 XML 文档 形式 
发 布 到 名 为 RetrievedBoltDrawing. svg 的 外 部 文件 。 

SELECT XMLCONTENT ( DRAWING, 'RetrievedBoltDrawing.svg' ) 


FROM 
WHERE Bo = 'P2°' 


5s 从 XML 文档 中 读 取 其 中 一 个 特定 的 部 分 。 

示例 : 我 们 进一步 假设 零件 信息 存放 在 名 为 PartsRelation. xml 的 文档 中 。 下 面 的 UPDATE 语 
句 : (a) 从 该 文档 中 抽取 零件 P3 的 属性 WEIGHT 的 值 ， 把 它 转换 成 REAL 类 型 ，(b) 然后 把 
关系 表 P 中 的 元 组 P3 的 相应 的 WEIGHT 属性 值 更 新 为 该 值 : 


UPDATE 
SET REIGHT = XMLEXTRACTREAL 
( 'PartsRelation.xml' 
3 PartTuplelPNUM = "np3" ]/WEIGHT' ) 
WHERE PNUM = 'P3' 


注意 我 们 这 里 所 用 的 函数 一 一 表 P 的 WEIGHT 列 是 REAL 类 型 而 不 是 NUMERIC (5, 1)， 
因为 XML Extender 目前 还 没有 支持 抽取 出 NUMERIC 类 型 数值 的 函数 。 更 重要 的 是 ，XMLEX- 
TRACTREAL 与 其 他 “extract” 函数 都 可 以 操作 那些 存储 成 关系 属性 值 的 XML 文档 ， 而 不 仅仅 
是 那些 存储 在 外 部 的 XML 文档 。 

s 更 新 一 个 XML 文档 中 特定 的 部 分 。 

示例 : 假设 关系 表 SP 包含 类 型 为 CLOB 的 属性 列 PARTDETAHL (实际 上 这 是 不 大 可 能 的 )， 
对 于 给 定 的 元 组 ， 该 属性 列 的 值 为 一 个 XML 文档 ， 用 于 描述 相应 的 零件 。 那 么 下 面 的 UPDATE 
语句 则 把 该 文档 中 有 供应 商 S4 供应 的 零件 颜色 都 更 改 为 绿色 。 


UPDATE SP 
SET PARTDETAIL = XMLUPDATE 
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( PARTDETAIL, 
'//PartTuple/COLOR', 'Green' ) 
WHERE SNUM = 'S4°' ，; 


27.8 小 结 


本 章 我 们 分 析 了 XML 与 数据 库 之 间 的 关系 。 为 了 更 好 地 分 析 ， 我 们 先 介绍 了 很 多 背景 : 首 
先 一 部 分 是 关于 万 维 网 ， 然 后 是 挥洒 更 多 的 笔墨 介绍 XML 本 身 。 

XML 源 于 更 早 的 语言 SGML 与 HTML; 名 称 “XML” 是 “Extensible Markup Language” 的 
缩写 ， 但 是 实际 上 XML (如 同 SGML 一 样 ) 是 一 种 元 语言 ， 甚 至 可 以 说 是 一 种 用 于 分 析 元 语言 
的 语言 。 在 本 章 的 开头 部 分 ， 我们 把 针对 XML 的 应 用 一 一 也 就 是 一 种 XML 的 派生 物 ， 称 为 一 
种 用 于 定义 某 些 特殊 的 XML 文档 的 语言 。XML 本 来 与 数据 库 没 什么 关系 ， 它 的 提出 仅仅 是 为 
了 “使 得 SGML 能 像 现在 的 HTML 一 样 ， 可 以 在 Web 上 上 发送， 接收 和 处 理 ” [27. 25 ] 。 不 过 ， 
显然 XML 数据 是 需要 用 数据 库 来 存储 和 处 理 的 ; 正 是 这 个 事实 让 一 些 人 倡导 把 XML 发 展 成 一 
种 新 的 数据 库 技 术 (或 者 是 这 种 技术 的 基础 ) ， 以 及 诸如 此 类 的 东西 。 

XML 文档 主要 由 贬 套 的 有 层次 的 元 素 结 点 构成 ， 每 一 个 元 素 结 点 有 一 对 划分 界限 的 标签 。 
一 个 给 定 的 元 素 可 以 包含 字符 数据 ， 嵌 套 的 元 素 ， 或 者 两 者 混合 存在 ， 也 支持 空 元 素 。 开 始 的 标 
签 可 有 一 系列 的 属性 结 点 。 我 们 已 经 看 到 ，XML 文档 可 以 用 来 表示 关系 表 ， 但 是 它 必须 对 元 组 
强加 一 种 自 上 而 下 的 顺序 ， 对 属性 也 可 能 要 施加 一 种 从 左 至 右 的 顺序 。 

任意 给 定 的 XML 文档 都 有 一 个 被 称 为 信息 集 的 抽象 结构 ， 它 通过 文档 对 象 模型 (DOM ) 
接口 的 调用 进行 处 理 ， 也 可 以 用 XQuery 进行 查询 。XML 文档 有 时 也 被 认为 是 遵循 半 结 构 数 据 
模型 的 ， 但 是 实际 上 ，XML 文档 的 结构 与 关系 一 样 ; 事实 上 ， 我们 看 到 半 结 构 模 型 与 旧 的 屡次 
模型 并 没有 本 质 的 差别 (至 少 在 结构 方面 ) 。 

任意 给 定 的 XML 文档 在 定义 上 都 必须 是 结构 良好 的 。 它 可 能 是 有 效 的 ， 也 就 是 它 是 符合 某 
些 给 定 的 文档 类 型 定义 (DID) 的 。 书 写 DTD 的 规则 是 XML 标准 的 固有 组 成 部 分 〈 实 际 上 ， 
一 个 给 定 的 DTP 就 是 从 XML 派生 出 来 的 某 些 定义 ) 。 但 是 DTD 存在 很 多 的 问题 尤其 是 它 在 
完整 性 约束 方面 支持 得 远 远 不 够 。XML Schema 是 用 来 生成 XML 模式 的 元 语言 ， 它 可 以 为 XML 
文档 提供 更 确切 更 详细 的 描述 (尤其 是 在 数据 类 型 方面 ， 尽 管 它 还 是 很 难 达 到 第 $ 章 所 描述 的 
情形 ) 。 检 查 一 个 给 定 的 XML 文档 是 否 符合 一 个 给 定 的 XML 模式 的 过 程 ， 就 是 模式 合法 性 
检查 。 

接 下 来 ,我 们 来 看 看 XQuery 和 XPath (后 者 是 前 者 的 一 个 真子 集 ) ， 它 们 以 只 读 方 法 来 访 
问 XML 数据 或 者 ,更 确切 地 说 是 ,访问 抽象 的 或 解析 过 的 XML 数据 (比如 说 数据 集 ) 。 我 
们 没有 打算 讨论 它们 是 如 何 定义 的 ， 而 是 通过 一 些 例子 来 看 看 它们 的 功能 。 我 们 讨论 了 路 径 表 达 
式 ， 它 有 效 地 让 用 户 按照 信息 集中 某 一 条 特定 的 路 径 来 导航 式 地 饥 历 某 些 目标 结 点 。 我 们 也 指出 
了 路 径 表 达 式 中 的 当前 结 点 所 扮演 的 重要 角色 ， 并 对 这 个 特征 所 希望 达到 的 目的 提出 了 质疑 
(当然 它 对 XQuery 和 XPath 的 “ 跳 到 某 结 点 ， 然 后 往 下 遍历 ”过 程 化 特性 起 了 很 多 的 作用 ， 这 
正 是 我 们 所 批判 的 此 类 语言 的 特性 之 一 ) 。 接 下 来 ， 我 们 还 看 到 Xpath 实际 上 仅仅 是 选择 结 点 而 
已 一 一 它 可 以 在 层次 数据 中 导航 遍历 已 有 的 结 点 , 但 是 不 能 构造 出 新 的 结 点 (所 以 需要 
XQuery ) 。 

然后 我 们 列举 了 很 多 XQuery 例子 ， 尤 其 是 用 于 表现 “fower 表达 式 ”( “FLOWR” =for+ 
let + where + order by + return) 。 我 们 拿 这 种 表达 式 与 关系 演算 表达 式 和 传统 的 编程 语言 的 嵌 套 循 
环 表达 式 相 比较 ， 结 果 发 现 后 者 艇 套 循 环 表达 式 比 关系 演算 表达 式 更 接近 于 flower 表达 式 。 后 来 
我 们 也 考虑 了 一 些 优化 中 的 问题 。 我 们 注意 到 Xquery 没有 支持 显示 的 连接 操作 ( 如同 SQL 的 早 
期 版 本 一 样 ) 。 

接 下 来 ， 我 们 介绍 了 如 何 把 XML 文档 存储 到 数据 库 中 的 三 种 方法 : 

1)“XML 属性 列 ”: 我 们 将 整个 XML 文档 存储 到 一 个 元 组 的 一 个 属性 值 中 。 这 种 方法 需要 
一 个 新 的 数据 类 型 ( 当然 还 包括 基于 该 类 型 的 变量 和 数值 的 操作 ) ， 称 之 为 XMLDOC。 

2)“XML 集 ”， 它 把 文档 划分 成 很 多 块 ， 把 每 一 块 存 储 到 不 同 关系 表 中 的 不 同 元 组 的 不 同 
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属性 值 中 。 注 意 : 划分 的 相反 的 操作 ， 就 是 把 非 XML 的 数据 转换 成 XML 形式 ， 称 之 为 发 布 。 
把 这 两 者 结合 在 一 起 ， 就 可 以 在 非 XML 数据 上 实现 XML 视图 (发布 为 了 检索 ， 划 分 为 了 更 
新 )。 

3) 我 们 也 可 以 把 文档 存 到 native XML 数据 库 中 (这 些 数据 库存 放 XML 之 类 的 文档 ， 而 不 
是 关系 表 ) 。 

我 们 也 解释 了 这 些 方法 的 优 劣 点 。 

最 后 ,我 们 简短 地 讨论 了 SQL/XML ( 它 将 可 能 在 2003 年 加 入 到 新 的 SQL 标准 中 )。SQL/ 
XML 支持 把 关系 数据 以 XML 形式 发 布 (尽管 在 我 们 看 来 ， 还 是 有 些 不 大 合适 )。SQL/XML 也 
引入 了 一 个 名 为 XML 的 新 数据 类 型 ， 此 类 型 的 值 就 是 XML 文档 或 者 文档 片断 ;因此 ， 它 可 以 
把 XML 数据 存储 到 关系 属性 列 中 ,但 是 它 却 没 有 提供 对 此 类 数据 的 相应 的 操作 。 临 近 结 束 时 ， 
我 们 以 DB2 为 例 ， 简 单 地 讨论 了 商用 产品 对 XML 的 专 有 支持 。 


习题 
27. 1 请 用 自己 的 话 解释 下 面 的 术语 : 
属性 特 网 标记 网 页 XML XQuery 
元 素 标记 URL 服务 器 XML 派生 
HTML 搜索 引擎 浏览 器 网 站 XML 模式 
HTTP SGML 万 维 网 息 取 器 ”万 维 网 XPath 


27.2 XML、HTML 和 SGML 是 如 何 联系 的 ? 
27.3 请 把 本 书 前 面 的 内 容 列表 表示 成 XML 文档 的 形式 ， 并 写 出 它 内 部 的 DTD。 
27.4 把 练习 27. 3 改 成 外 部 DTD 的 形式 ， 并 解释 外 部 DTD 的 优势 。 
27.5 一 个 XML 文档 (a) 结构 良好 (b) 有 效 ， 是 指 什么 意思 ? 
27.6 什么 是 空 元 素 ? 
27.7 你 是 否认 为 按照 第 25 章 的 讲解 ，XML 文档 是 限制 性 结构 的 ? 
27.8 在 第 27.4 节 的 “DTD 的 局 限 性 ”小 节 中 ， 我 们 指出 了 DTD 的 明显 不 足 之 处 一 一 它 不 是 用 XML 描 
述 的 。( 当然 ， 如 果 XML 真如 它 所 声称 的 那么 通用 和 强大 的 话 ， 它 应 该 能 够 描述 自己 才 对 。) 请 问 ， 
SQL 的 数据 定义 中 也 有 相似 的 不 足 吗 ? 关系 数据 模型 呢 ? 为 什么 ? 
27.9 请 用 XML 文档 的 形式 表示 图 4-5。 使 用 XML 的 元 素来 表示 数据 值 ， 不 要 使 用 属性 。 思 考 唯一 性 约 
柬 可 以 执行 到 什么 程度 ? 
27. 10 重 写 练习 27. 9 的 例子 ， 使 用 XML 属性 来 表示 数据 值 。 使 用 属性 的 优点 和 缺点 各 是 什么 ? 
27.11 假设 练习 27.9 和 27. 10 的 答案 扩展 到 包括 供应 商 、 零 件 和 供 货 关 系 ， 参 照 约束 可 以 被 执行 到 什么 
程度 ? 
读者 在 做 练习 27. 12 ~27. 14 时 ， 可 能 需要 参考 官方 的 XML Schema 文档 [27. 28] 以 及 其 他 一 
些 类 似 的 参考 文献 。( 本 章 的 内 容 不 足以 完全 回答 这 些 问题 ) 
27. 12 ”请 为 练习 27. 3 的 答案 建立 XML schema。 
27. 13 请 为 27.3 节 的 PartsRelation 文档 建立 XML schema， 不 用 给 PartTuple 强加 顺序。 
27.14 我 们 在 27. 4 节 讲 XML Schema 数据 类 型 不 是 一 般 理 解 的 类 型 。 你 同意 这 个 观点 吗 ? 请 做 出 解释 。 
27. 15 ” 讲 讲 你 对 infoset 这 个 词 的 理解 。 
27. 16 什么 是 path 表达 式 ? 
27. 17 什么 是 “FLWOR 表达 式 ”? for 子 句 和 let 子 句 的 关键 区 别 是 什么 ?什么 时 候 应 该 使 用 谓词 而 不 是 
where 子 句 ? 
练习 27. 18 ~27. 21 参考 27. 4 节 的 PartsRelation 文档 。 所 有 结果 要 求 结 构 良 好 。 
27.18 写 出 一 个 XQuery 语句 ， 列 出 所 有 包含 Note 元 素 的 PartTuple 元 素 。 
27. 19 写 出 一 个 XQuery 语句 ， 列 出 所 有 绿色 的 零件 ， 每 一 个 PartTuple 都 风 套 在 一 个 GreenPart 元 素 中 。 
27.20 ”如果 下 面 的 XQuery 语句 作用 于 一 个 包含 所 有 六 个 零件 Pl ~ P6 的 PartsRelation 文档 ， 会 得 到 什么 
结果 ? 
<Parts> 


{ count(document ("PartsRelation.xml")//PartTuple) } 
</Parts> 
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27.21 


27. 22 


27. 23 


27. 24 
27, 25 


27.26 
27. 27 


27. 28 


27. 29 
27. 30 
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假设 我 们 ， 除 了 PartsRelation 文档 ， 还 给 出 文档 SuppliersOverShipments (参考 图 27-4) ， 写 出 一 个 
XQuery 语句 ， 列 出 至 少 供应 一 种 蓝 色 零件 的 供应 商 。 
如 果 练 习 27. 21 中 的 SuppliersOverShipments 文档 给 出 了 图 3-8 的 所 有 供应 商 和 供 货 关 系 ， 下 面 的 语 
句 会 产生 什么 结果 ? 
for $sx in document("SupPPlLiersOverShipments .xml")/ 
Supplier{CITY = 'London'] 

return 

<Result> 


{ $sx/SNUM, Ssx/SNAME, $sx/STATUS, $sx/CITY } 
</Result> 


下 面 两 个 结果 子 名 的 语义 区 别 是 什么 (如果 存 在 区 别 的 话 )? 
return <Result> { $a, $b } </Result> 


return <Result> { $a } { $b } </Result> 


我 们 有 什么 方法 在 数据 库 中 存储 XML 数据 ? 每 种 方法 的 利弊 各 是 什么 ? 

考虑 一 下 27.6 节 “ 专 有 的 支持 ”小 节 中 所 (简单 ) 描述 的 函数 ， 你 对 这 些 函 数 的 设计 有 什么 想法 
吗 ? 

有 人 认为 XML 文档 很 像 关 系数 据 中 的 元 组 ， 请 加 以 比较 。 

有 时 候 我 们 说 XML 数据 是 无 模式 的 ， 你 怎么 样 在 无 模式 的 数据 上 执行 查询 呢 ? 怎么 样 为 这 种 数据 
设计 查询 语言 ? 

在 27. 3 节 中 我 们 讲 到 ， 文 档 设计 者 数据 的 认 知 很 大 程度 地 影响 着 XML 文档 的 结构 。 关 系数 据 存在 
相似 的 影响 吗 ? 如 果 没 有 ， 为 什么 没有 ? 请 解释 你 的 观点 。 

如 果 你 熟悉 “层次 数据 模型 "， 请 尽 可 能 地 指出 它 和 本 章 介绍 的 “ 半 结 构 模 型 ”的 区 别 。 

下 面 的 文字 出 自 参考 文献 [27.4] : “XML 避 开 我 们 应 该 做 什么 这 一 基本 问题 ， 而 是 完全 注重 于 我 
们 应 该 怎么 做 ” 。 请 讨论 。 
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式 化 语言 ， 参 看 27.3 节 。 但 是 它 可 以 进行 简单 的 查询 ， 就 像 XSLT 一 样 。) XSL 和 XQL 只 支持 
单个 XML 文档 的 查询 ， 其 他 的 语言 支持 跨 文档 的 查询 。XML-GL 提供 一 种 像 QBE 的 界面 。 
Lorel 和 XML-GL 具有 更 新 能 力 。 参 看 参考 文献 [27. 16 ] 

Jon Bosak and Tim Bray:“XML and the Second-Generation Web,” http://www. scian. com ( May 
1999 ) . 
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[ 27. 


[27. 


[ 27. 


[ 27. 


[27. 
[27. 


[27. 


[27. 


7] 


14] 
15] 


16] 


.18] 


19] 


荔 27 韵 互 恬 网 与 XML 597 


数据 库 技 术 的 基础 。 它 提出 : “XML (文档 ) 具有 计算 机 中 所 说 的 树 结 构 …… 树 结构 不 能 表示 
所 有 类 型 的 信息 ， 但 它 可 以 表示 我 们 需要 计算 机 理解 的 大 部 分 信息 。 进 一 步 说 ， 树 结构 对 于 编 
程 人 员 十 分 方便 。 如 果 你 的 银行 账单 是 树 结构 的 ， 那 么 写 一 个 软件 来 记录 交易 或 显示 账单 明细 
就 非常 简单 。 当然， 这些 观点 可 能 很 正确 ， 但 是 它 足够 了 么 ? 一 个 关于 树 (或 者 说 层次 ) 在 数 
据 库 中 历史 的 研究 表明 ， 答 案 是 否定 的 。 基 本 的 观点 是 ， 即 使 数据 上 共有 自然 的 层次 结构 ， 就 像 
部 门 和 雇员 的 例子 ， 也 不 意味 着 它 应 该 被 表示 成 层次 结构 。 因 为 层次 的 表示 方法 不 适合 于 我 们 
要 对 数据 进行 的 所 有 处 理 。 那 么 不 具有 自然 层次 结构 的 数据 又 应 该 如 何 昵 ? 例如 : 命题 “供应 
商 s 供应 零件 p 给 工程 j” 最 好 的 树 型 表示 是 什么 ? 注意 : 我 们 在 25. 1 节 与 对 象 的 连接 中 指出 了 
同样 的 缺陷 ， 它 和 XML 文档 一 样 也 是 层次 的 。 

Ron Bouret" XML and Databases” http: //rpbourret. com/xml/ XMLAndDatabases. htm ( November 
2002 ) . 

一 个 好 的 导论 。 它 提 到 “这 篇 文章 给 出 了 一 个 关于 如 何 与 数据 库 一 起 使 用 XML 的 高 水 平 
概论 。 它 讲述 了 …… 以 数据 为 中 心 和 以 文档 为 中 心 的 区 别 ，XML 一 般 如 何 与 关系 数据 库 一 起 使 
用 ， 以 及 native XML 数据 库 的 概念 和 使 用 。” 

Peter Buneman. Wenfei Fan, Jér6ome Siméon, and Scott Weinstein “ Constraints for Semistructured Data 
and XML,” ACM SIGMOD Record 30,No. 1 ( March 2001 ). 

Donald D. Chamberlin, Jonathan Robie, and Daniela Florescu: “ QUILT: An XML Query Language 
for Heterogeneous Data Sources,” in Dan Suciu and Gottfried Vossen( eds. ) , Lecture Notes in Comput- 
er Science 1997. NewYork,N. Y. Springer - Verlag (2000). 

Donald D. Chamberlin:“ XQuery: An XML Query Language,” IBM Sys. J. 41 ,No. 4(2002). 

Chamberlin 是 SQL 的 初始 设计 者 之 一 [4.9 ~4.11] ， 他 现在 是 W3C 中 定义 XQuery 的 工作 
组 成 员 。 这 篇 论文 是 一 个 有 用 的 指南 ， 虽 然 它 还 包含 一 些 有 争议 的 观点 ， 特 别 是 这 一 点 :“ 和 迭代 
是 查询 语言 中 的 重要 部 分 。” 这 一 论断 和 Codd 的 观点 截然 相反 。Codd 认为 : “从 数据 库 中 抽取 
任何 信息 ， 不 管 是 程序 员 还 是 非 程序 员 的 用 户 ， 都 不 应 使 用 迭代 或 者 递归 的 循环 ” ( Codd 的 第 
九 次 “数据 库 管理 的 基本 规则 ”[6.2])。 

Andrew Eisenberg and Jim Melton: “SQLAXML and the SQLX Informal Group of Companies,” ACM SIG- 
MOD Record 30 ,No. 3( September 2001) ;“ SQL/XML Is Making Good Progress,” ACM SIGMOD Re- 
cord 31 ,No. 2( June 2002 ). 

Daniela Florescu, Alon Levy ,and Alberto Mendelzon:“ Database Techniques for the World-Wide Web. 
A Survey,” ACM SIGMOD Record 27,No. 3( September 1998 ) . 

这 篇 论文 是 关于 Web 数据 的 ， 而 不 是 专门 介绍 XML 数据 的 。 它 对 “管理 和 查询 Web 数据 
问题 的 数据 库 概念 合理 性 ”相关 的 工程 、 原 型 和 语言 作 了 一 个 综述 。 这 里 包含 更 多 的 参考 文献 。 
Hector Garcia- Molina, Jeffrey D. Uliman, and Jennifer Widom: Database Systems: The Compiere 
Book. Upper Saddle River ,N. 本 :Prentice Hall(2002). 

Elliotte Rusty Harold: XML Bible(2d ed. ). New York,N.Y. : Hungry Minds,Inc(2001). 
International Organization for Standardization (JSO) : XML-Related Specifications ( SQOL/XML) Work- 
ing Draft, Document ISO/IEC JTC1/SC32/ WG3 :DRS -020(August 2002). 

一 篇 基于 此 文档 的 早期 版 本 的 指南 可 以 在 参考 文献 [26.32] 中 找到 ， 也 可 以 参考 
[27.11]。 

Dongwon Lee and Wesley W. Chu:“ Comparative Analysis of Six XML Schema Languages,” ACM 
SIGMOD Record 29 ,No. 3( September 2000). 

这 六 种 语言 是 XML Schema, XPR, SOX，Schematron, DSD， 以 及 我 们 在 本 章 提 到 的 DTD 
定义 语言 。 其 中 ，DTD 是 最 弱 的 ，XML Schema 是 最 强 的 。 参 考 【27. 5 ]。 

Philip M. Lewis, Arthur Bernstein, and Michael Kifer: Databases and Transaction Processing: An 
Application-Oriented Approach. Boston, Mass . :Addison-Wesley(2002 ) . 

Jason McHugh and Jennifer Widom:“ Query Optimization for XML ,”Proc. 25th Int. Conf. on Very 
Large Data Bases, Edinburgh, Scotland( September 1999 ). 

一 个 关于 Lore 的 优化 组 件 经 验 的 报告 ，“a DBMS for XML-based data supporting an expres- 
sive query language [called Lorel] .” 

Theodor Holm Nelson:“A File Structure of the Complex, the Changing ,and the Indeterminate,” Proc. 20th 





598 


希 六 部 分 ”对象 、 关 系 和 和 XML 





[27. 20] 


[27.21] 
[27.22] 
[27.23] 
[27. 24] 
[27. 25] 
[27. 26] 
[27.27] 
[27. 28] 


[27. 29] 


[27. 30] 


Nat. ACM Conf. , Cleveland, Ohio ( August 24 ~ 26, 1965 ). See Also Theodor Holm Nelson: Literary Ma- 
chines. Sausalito ,Calif. ;Mindful Press( 1993 :1st edition published in 1982). 
Nelson 1965 年 的 论文 (其 中 提出 超 文 本 )， 是 建立 在 前 人 Vannevar Bush ( Memex，1945) 
和 Douglas Engelbart ( NLS: oNLine System，1963) 工作 的 基础 上 的 。 
Fabian Pascal : "Managing Data with XML : Forward to the Past?” htip://searchdatabase. techtarget. 
com ( January ,2001 ) . 
在 参考 文献 [27.6] 中 ，Bosak 和 Bray 强烈 建议 取代 一 部 分 DBMS 的 功能 ， 交 给 应 用 程序 
处 理 。Pascal 则 认为 这 样 的 提议 是 一 种 倒退 。 
Igor Tatarinov , Zachary G. lves, Alon Y. Halevy, and Daniel S. Weld:“ Updating XML ," Proc. 2001 
ACM SIGMOD It Conf on Management of Data, Santa Barbara, Calif. ( May 2001). 
提出 一 组 对 XQuery 扩展 的 更 新 操作 ， 并 把 这 些 更 新 通过 XML 视图 施行 到 底层 关系 数据 。 
The Unicode Consortium :The Unicode Standard, Version 4. 0. Reading ,Mass:Addison -Wesley(2003 ). 
Jennifer Widom : ”Data Management for XML,” http://www-db. stanford. edu/ ~ widom/ xml-whitepa- 
Per html( Junel7 ,1999 ). 
W3C.:“ Document Object Model( DOM) Level 3 Core Specification Version 1. 0 Working Draft,” hr- 
Dp://www. w3. org/ TR/ DOM-Level-3-Core. ( February26 ,2003 ) . 
W3C: "Extensible Markup Language( XML) 1.0” (2d ed ) http://www. w3. org/TR/REC-xml( Octo- 
ber 6, 2000 ). See also Tim Bray:“The Annotated XML 1.0 Specification,” hutp://www. xml. com 
(follow the link“ Annotated XML” ). 
W3C.:“ XML Information Set,” htip://www. w3. org/ TR/xml-infoset( October 24 ,2001 ). 
W3C."“ XML Path Language( XPath) Version 2. 0 Working Draft,” htip://www. w3. org/TR/xpath20 
(May 2 ,2003 ). 
W3C: "XML Schema Part 0: Primer; Partl : Structures; Part?2. Datatypes,” http://www. w3. org/TR/ 
xmlschema -0/, -1/, -2/(May 2,2001). 
W3C." XQuery 1.0: An XML Query Language Working Draft,” htip://www. w3. org/TR/xquery 
(May 2 ,2003). 
注意 : 下 列 是 与 XQuery 相关 的 W3C 文档 : 
“XML Query Requirements Working Draft,” http://www. w3. org/TR/xquery - requirements( May 
2 ,2003) 
® “XQuery 1.0 and XPath 2.0 Data Model Working Draft,” htp://www. w3. org/TR/xpath-data- 
model( May 2,2003 ) 
B® “XQuery 1.0 and XPath 2. 0 Formal Sementics Working Draft,” hrip://www. w3. org/ TR/xquery- 
sementics( May 2 ,2003 ) 
“XQuery 1.0 and XPath 2. 0 Functions and Operators Working Draft,” htip://www. w3. org/TR/ 
xpath-functions( May 2 ,2003 ) 
是 “XML Query Use Cases Working Draft,” http://www. w3. org/TR/xquery-use-cases ( May 2, 
2003 ) 
XML: DB : XML Update Language Working Draft,” http://www. xmldb. org/xupdate/ xupdate - wd. 
himl( September 14 ,2000 ) . 
XML: DB 是 一 个 开放 的 工业 联盟 (不 是 一 个 标准 化 组 织 ) ， 它 被 特许 发 展 XML 数据 库 的 
特殊 规范 。 它 成 立 于 2000 年 ， 因 为 “XML 数据 库 …… 有 上 比 万 维 网 更 加 广阔 的 应 用 。” XUpdate 
将 是 XML 数据 的 更 新 语言 。 
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附录 A TransRelational 模型 


A.1 引言 


在 科学 领域 里 ， 不 时 地 会 出 现 一 些 令 人 上 吃惊 的 新 奇 思 想 ， 由 于 新 思想 要 好 过 目前 已 有 的 所 有 
理论 ， 因 此 可 以 称 得 上 是 一 种 突破 。 关 系 模型 在 数据 库 的 世界 里 就 是 这 样 的 一 个 明显 的 突破 ， 本 
书 中 几乎 所 有 的 观点 都 体现 了 这 一 思想 。 现 在 我 们 正 看 到 另 一 个 具有 突破 性 的 思想 的 诞生 : 
TransRelational 模型。 笔者 认为 ，Steve Tarin 发 明 的 TransRelational 模型 ， 简 称 TR， 很 可 能 会 
被 证 明成 为 自 35 年 前 Codd 发 明 关 系 模型 以 来 数据 库 领 域 里 最 重大 的 发 展 。 

我 们 需要 立即 声明 的 就 是 TR 并 不 是 要 成 为 关系 模型 的 替代 品 ，“TransRelational ”中 的 
“Trans” 并 不 像 “translunar” 中 的 “Trans” 那 样 代 表 “ 超 越 ”， 而 是 指 “ 转 换 ”。TR 和 关系 模 
型 一 样 ， 也 是 一 种 数据 的 抽象 模型 ， 但 TR 是 更 为 底层 的 模型 ， 它 更 接近 物理 存储 。 实 际 上 ，TR 
是 被 设计 用 来 作为 一 种 关系 模型 的 实现 手段 。 也 许 你 还 记得 ， 我 们 在 第 18 章 的 结尾 曾 提 到 “一 
种 全 新 的 DBMS 实现 方法 已 经 出 现 ， 这 种 方法 使 得 传统 实现 方法 中 许多 有 关 底 层 的 假设 不 再 有 
效 ”， 这 种 方法 就 是 TR。 

在 进入 技术 细节 的 讨论 之 前 我 们 需要 了 解 一 些 相关 的 背景 。 这 里 的 TR 其 实 是 一 种 通用 技术 
上 的 特定 应 用 程序 ， 以 其 发 明 者 命名 ， 全 称 是 Tarin Transform Method。 它 是 美国 的 一 项 专利 ， 
是 许多 系统 (不 仅仅 是 DBMS ) 一 一 如 数据 仓库 、 数 据 控 掘 、SQL 系统 、Web 搜索 引擎 、 原 生 
XML 系统 等 一 一 中 的 数据 存储 和 检索 的 实现 技术 。 但 本 附录 的 主题 ， 局 限 在 这 一 通用 技术 在 关 
系 系统 中 的 应 用 。 但 从 后 面 的 介绍 中 可 以 看 出 ， 这 一 通用 技术 是 最 适合 关系 系统 的 实现 ， 实 际 
上 ， 它 就 是 在 实现 关系 系统 的 过 程 中 产生 的 。 

下 面 我 们 可 以 开始 进行 技术 的 讨论 。 了 解 TR 的 一 个 好 的 方法 就 是 从 考虑 数据 的 独立 性 开始 
(更 准确 的 说 应 该 是 物理 数据 的 独立 性 ) ， 数 据 独 立意 味 着 数据 在 系统 的 物理 层次 和 逻辑 层次 上 
存在 着 明显 的 差异 ， 这 种 差异 导致 了 数据 需要 在 物理 层次 和 逻辑 层次 之 间 进 行 转换 。 目 前 大 多 数 
的 DBMS 系统 都 采用 了 一 种 主 码 转换 的 方法 ， 将 物理 层次 上 的 关系 变量 映射 到 逻辑 层次 上 具有 
相同 主 码 的 关系 变量 。 在 这 样 的 系统 中 ， 物 理 存 储 上 的 数据 可 以 近似 的 看 作用 户 从 逻辑 视图 上 看 
到 的 数据 的 一 个 直接 影像 (如 图 A-1 所 示 ) 。 从 图 中 可 以 看 出 ， 这 样 的 系统 并 没有 真正 提供 太 多 
的 数据 独立 性 ， 而 且 数 据 需要 按照 固定 的 顺序 进行 物理 存储 ， 如 果 需 要 以 其 他 的 顺序 访问 数据 ， 
就 需要 提供 诸如 索引 之 类 的 宛 余 数据 结构 ， 为 了 达到 可 接受 的 性 能 要 求 还 需要 提供 优化 技术 ， 因 
此 数据 库 管 理 员 的 工作 难度 远 远 超过 了 数据 管理 本 身 。 


.vv.Stored fields... 


tuple stored record 





tuple stored record 
tuple stored record 
tuple stored record 
tuple stored record 








图 A-1 直接 影像 的 实现 
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相 比 较 而 言 ，TR 中 的 转换 方法 要 灵活 许多 ， 其 特点 可 以 概括 如 下 : 

a TR 提供 更 高 的 数据 独立 性 。 

sm TR 将 数据 以 多 种 物理 顺序 进行 有 效 的 存储 ， 不 再 需要 像 索 引 之 类 的 元 余数 据 结构 。 

= TR 中 的 优化 技术 要 远 比 直接 影像 系统 中 的 简单 ， 对 一 种 给 定 的 关系 操作 往往 只 有 一 种 明 

显 的 最 好 实现 方式 。 

m TR 的 运行 性 能 要 优 于 直接 影像 系统 。 值 得 一 提 的 就 是 ， 连 接 操作 的 复杂 度 是 线性 的 ， 也 

就 是 说 20 个 表 连 接 时 间 大 致 等 于 10 个 表 连 接 时 间 的 两 倍 ， 如 果真 的 需要 连接 20 个 表 ， 

那么 TR 将 是 首选 技术 ， 也 就 是 说 ，TR 系统 是 可 扩展 的 。 

s TR 系统 更 易于 管理 ， 因 为 它 很 少 需要 人 的 配置 选择 操作 。 

sa 在 整个 TR 系统 的 物理 层次 上 没有 像 “存储 关系 变量 ”或 者 是 “存储 关系 元 组 ”之 类 的 概念 。 

在 这 个 附录 里 ， 我 们 给 出 了 TR 工作 的 一 个 简单 描述 。 当 然 ， 我 们 不 可 能 在 这 里 覆盖 TR 的 
方方面面 ， 为 了 限定 我 们 讨论 的 范围 ,我 们 省 去 了 (a) 更 新 ，(b) 二 级 存储 ; 也 就 是 说 我 们 假 
定数 据 库 是 (a) 只 读 ，(b) 在 主 存 中 ,但 请 不 要 认为 TR 仅仅 适合 只 读 、 主 存 数 据 库 。 要 了 解 
TR 所 有 方面 的 知识 ， 包 括 更 新 操作 和 二 级 存储 ， 请 阅读 TR 的 用 户 手册 。 


A.2 抽象 的 三 个 级 别 


可 以 认为 使 用 TR 技术 实现 的 关系 系统 包含 三 个 级 别 的 抽象 : 关系 级 别 (或 用 户 级 别 ) ， 文 
件 级 别 和 TR 级 别 ( 如 图 A-2 所 示 ) 
ms 在 最 高 的 级 别 上 ， 数 据 被 表示 成 关系 表 ， 由 通常 意义 


上 的 元 组 和 属性 组 成 。 用 户 所 见 的 数据 库 。 关系 
a 在 最 低 的 级 别 上 ， 数 据 被 表示 成 一 种 称 为 表 的 TR 内 

部 结构 ， 这 种 表 也 是 由 行 和 列 组 成 。 请 注意 这 里 表 以 之 人 
及 行 和 列 不 是 SQL 结构 中 相应 概念 ， 它 们 之 间 也 没 并 


有 直接 的 对 应 关系 。 

a 中 间 级 别 在 最 高 与 最 低级 别 的 数据 模式 转换 上 起 一 个 “| TR 级 | TR 所 见 的 数据 库 。 表 

过 渡 的 作用 : 高 层 的 关系 表 被 映射 到 这 一 层 的 文件 ， 
然后 文件 再 被 映射 到 底层 的 表 结构 。 这 一 层 的 文件 由 图 A-2 抽象 的 三 个 级 别 

记录 和 字段 组 成 ; 其 中 记录 对 应 上 层 中 的 元 组 ， 字 段 对 应 上 层 的 属性 列 。 注 意 : 不 要 误 认 
为 这 里 的 文件 就 是 物理 的 存储 方式 ; 它们 仍然 是 物理 存储 的 一 种 抽象 ， 就 跟 关 系 变量 一 样 
(TR 表 结构 也 是 这 样 ) ， 但 可 以 认为 它们 比 关系 变量 要 更 接近 物理 存储 〈 但 与 TR 表 相 比 
则 要 远 一 些 ) 。 

从 现在 起 ， 我 们 应 该 小 心 的 区 分 一 些 术语 : 最 高 级 别 上 的 关系 ， 中 间 级 别 上 的 文件 以 及 最 低 
级 别 上 的 表 。 为 了 简单 起 见 ， 本 文 后 面 所 提 到 的 关系 变量 和 关系 默认 为 是 指 底层 的 关系 变量 和 关 
系 ， 除 非 我 们 作 显 式 的 声明 。 

将 关系 变量 映射 到 TR 表示 的 第 一 步 ， 就 是 将 [ 吾 丙 序列 二 2 7 


关系 先 映射 到 文件 ， 按 照 元 组 对 应 记录 ， 属 性 列 | 宝应 到 : 
对 应 记录 字段 的 映射 方式 。 例 如 ， 图 A-3 就 表示 | + | SRAME [sraros erm 


了 
了 一 种 文件 到 我 们 常用 的 供应 商 信息 表 的 映射 方 54 cark | 30 |xepaon 
式 。 在 文件 中 ， 如 图 中 的 记录 号 和 字段 号 所 示 ， s2 | Tones | 10 |Paris 
记录 从 上 到 下 排列 ， 记 录 中 的 字段 从 左 往 右 排列 。 53 | Blake | 30 |peris 


尽管 如 此 ， 记 录 的 次 序 和 字段 的 次 序 实际 上 可 以 
是 任意 的 次 序 ; 因此 ，A-3 中 的 供应 商 信息 表 可 以 图 A-3 文件 与 供应 商 信息 表 的 映射 
等 价 的 映射 到 2880 种 不 同 的 文件 -5 个 记录 的 全 排列 合 120 种 排 法 9 以 及 4 个 字段 的 全 排列 合 











QO 并 不 是 所 有 120 种 排序 都 能 够 通过 简单 的 ORDER BY 语句 来 得 到 (比如 说 ， 图 A-3 中 所 示 的 次 序 就 无 法 得 到 )。 
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24 种 排 法 。 从 表示 了 相同 信息 的 角度 来 看 ， 这 2880 个 不 同 的 文件 是 彼此 等 价 的 。 因 此 ， 有 时 把 
它们 看 作 是 一 个 “相同 文件 ”的 2880 个 不 同 的 版 本 会 比较 方便 。 

图 A-3 中 所 示 的 文件 现在 可 以 表示 成 TR 层 上 的 表 结 构 ， 同 时 也 可 以 从 TR 表 结 构 中 重 构 出 
来 。 实 际 上 ， 相 同文 件 的 多 个 不 同 版 本 都 可 以 从 相同 的 TR 表 结 构 中 轻松 重 构 出 来 (术语 “版 
本 ”上 面 已 经 解释 过 一 一 就 是 记录 和 字段 的 次 序 不 同 ， 但 内 容 却 是 相同 的 ) ; 我 们 在 下 一 节 就 可 
以 看 到 这 一 过 程 是 如 何 工 作 的 。 在 TR 的 表 结 构 中 ， 行 按 自 上 而 下 的 次 序 组 织 ， 列 按 自 左 向 右 的 
次 序 组 织 。 行 和 列 的 交点 ， 我 们 称 之 为 单元 ， 可 以 通过 [i, 门 形式 的 脚注 来 表示 ， 其 中 ，i 表示 
行 号 , / 表示 列 号 。 

文件 到 TR 表 结构 的 映射 细节 我 们 将 在 下 一 节 给 出 。 这 里 我 们 只 是 强调 这 种 映射 完全 不 同 于 
A. 1 节 所 讨论 的 直接 影像 的 映射 方式 。TR 表 结构 中 的 行 和 文件 中 的 记录 不 存在 一 对 一 的 关系 ， 
因此 与 关系 中 的 元 组 也 不 存在 一 对 一 的 关系 。 图 A-4 给 出 了 与 图 A-3 相对 应 的 TR 表 结 构 一 一 字 
段 值 表 ， 对 照 A-3，A-4 可 以 发 现 ，A-4 中 行 和 A-3 中 文件 记录 没有 明显 的 对 应 关系 。 

为 了 能 够 从 A-4 中 的 字段 值 表 重 构 出 A-3 中 所 示 的 文件 ， 我 们 还 需要 另外 一 个 表 一 一 记录 
重 构 表 (如 图 A-5 所 示 ) 。 注 意 ， 在 图 A-5 的 表格 中 的 值 不 再 是 供应 商 的 编号 和 状态 值 等 一 一 尽 
管 列 的 名 称 是 这 样 标 记 的 一 一 而 是 行 的 编号 。 进 一 步 的 解释 见 下 一 节 。 


了 


: [s# [SNAME | 





















列 序列 : 1 2 3 4 
行 序列 : [s# jsnanE [sTaTus [crTY | 





TI1S1|RAdams 
2152 | Blake 
3|1S3|Clark 
4|S4|Jones 
51S5 | Smith 30 |Paris 


图 A-4 图 A-3 文 件 的 字段 值 表 A-5 图 A-3 文件 的 记录 重 构 表 


A. 3 基本 思想 


TR 模型 下 的 重要 思想 可 以 归纳 如 下 ， 令 7 表示 某 个 文件 中 的 一 个 记录 : 

r 的 存储 形式 中 包括 两 个 逻辑 独立 的 方面 ， 一 个 是 记录 中 的 字段 值 ， 一 个 是 将 这 些 字段 值 链 
接 在 一 起 的 链接 信息 ， 对 这 两 个 方面 有 很 多 种 相应 的 存储 方式 。 

在 直接 影像 系统 中 ，r 的 这 两 方面 的 信息 是 存放 在 一 块 的 ; 也 就 是 说 ， 这 样 的 系统 中 的 链接 
信息 是 由 物理 存储 上 的 邻近 关系 来 表示 的 。 在 TR 中 ,， 这 两 方面 的 信息 是 分 离 的 一 一 字段 值 存放 
在 字段 值 表 中 ， 链 接 信息 存放 在 记录 重 构 表 中 。 这 种 信息 的 分 离 正 是 TR 技术 能 够 带 来 各 种 好 处 
的 根基 。 

1. 字段 值 表 

现在 ， 可 能 你 已 经 了 解 到 如 何 从 图 A-3 中 的 文件 得 到 图 A-4 中 的 字段 值 表 : 字段 值 表 中 的 
每 一 列 包含 了 文件 中 的 相应 字段 的 值 ， 并 按 升序 作 了 重新 的 排列 。 因 此 不 论文 件 中 的 记录 初始 时 
是 什么 样 的 次 序 ， 我 们 都 可 以 得 到 相同 的 字段 值 表 (在 我 们 的 例子 中 ,文件 的 2880 个 版 本 对 应 
同一 个 字段 值 表 ) 。 尽 管 现在 我 们 还 没有 描述 这 种 表 如 何 使 用 〈 我 们 还 必须 先 讨论 记录 重 构 表 ) ， 
但 可 以 先 看 看 这 种 表 给 我 们 带 来 的 非常 直观 的 好 处 : 

s 字段 值 表 中 每 列 的 值 都 是 有 序 的 ， 可 以 直接 用 于 回答 用 户 带 ORDER BY 的 查询 请 求 。 例 

如 ， 一 个 按 city 名 排序 的 查询 请 求 就 不 需要 在 运行 时 间 的 排序 操作 ， 也 不 需要 用 到 索引 。 
ma 按 city 名 逆序 排序 的 查询 请 求 同 样 如 此 ， 实 现 只 需 按 自 底 向 上 的 顺序 处 理 字 段 值 表 即 可 。 

a 相似 的 结论 可 以 应 用 到 每 个 单一 属性 上 ; 也 就 是 说 ， 字 段 值 表 同时 有 效 地 表示 了 多 种 不 同 

的 排序 〈 每 个 属性 上 两 个 方向 上 的 排序 ) 。 
sm 查找 特定 值 的 查询 一 一 例如 ， 查 询 London 的 供应 商 记 录 一 一 可 以 使 用 有 效 的 二 分 查找 方 
法 。 这 一 点 同样 适用 于 每 一 个 属性 。 

最 后 ， 我 们 可 以 观察 到 字段 值 表 可 以 看 作 是 在 用 户 数据 视图 (也 就 是 用 户 级 别 上 的 关系 表 ) 

和 TR 内 部 结构 之 间 的 一 个 桥梁 。 字 段 值 表 是 唯一 包含 用 户 数 据 的 TR 表 一 一 所 有 其 他 的 TR 信 
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息 都 不 是 与 用 户 直 接 相 关 或 暴露 给 用 户 。 

2. 记录 重 构 表 

图 A-6 并 排 展 示 了 图 A-4 的 字段 值 表 和 图 A-5 的 记录 重 构 表 。 可 以 看 出 这 两 个 表 是 同型 的 ， 
表格 之 间 存 在 直接 的 一 对 一 关系 (也 就 是 说 这 两 个 表 的 行 数 和 列 数 分 别 与 图 A-3 中 的 记录 数 和 
记录 中 的 字段 数 相等 ) 。 但 正如 A. 2 节 所 提 到 的 ， 在 记录 重 构 表 中 的 数据 不 是 表示 供应 商 编 号 或 
是 供应 商 名 等 ， 它 们 只 是 行 编号 ， 而 且 这 些 行 编号 可 以 被 认为 是 指向 字段 值 表 或 是 记录 重 构 表 中 
某 些 行 的 指针 ， 具 体 指向 哪个 表 要 根据 它 使 用 的 上 下 文 环境 来 定 。( 因为 这 个 原因 ， 记 录 重 构 表 
中 的 列 是 不 应 该 被 标记 上 S#，SNAME 等 名 字 的 ; 但 暂时 标 上 这 些 标记 有 助 于 后 面 的 解释 。) 

在 我 们 解释 记录 重 构 表 如 何 构建 之 前 ， 我 们 先 看 看 它 是 如 何 被 使 用 的 。 请 看 下 面 的 操作 过 程 : 
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2 3 
|s# | suame | sTarus|crmY 


S51 | Adam 101Athens 
21S2|B1Lake 20 lLondon 
3|83|cClark 20 ILondon 
41S4 | Jones 30|lParis 
5|S85 | Smith 30 |Paris 


图 A-6 图 A-4 的 字段 值 表 和 其 相应 的 记录 重 构 表 















第 一 步 : 从 字段 值 表 中 的 [1, 1] 单元 中 取出 其 值 : 也 就 是 供应 商 名 S1。 这 个 值 是 供应 商 
文件 中 某 个 记录 的 第 一 个 字段 值 〈S# 字 段 值 ) 。 
第 二 步 : 从 记录 重 构 表 中 相同 的 单元 ( [1, 1] 单元 ) 中 取出 其 值 : 也 就 是 行 编号 5， 这 个 行 


编号 就 是 重 构 记 录 第 二 个 字段 ( 即 SNAME 字段 ) 的 值 在 字段 值 表 中 位 置 ， 即 位 置 [5, 2] ， 到 字 
段 值 表 的 这 个 位 置 上 取出 存储 值 〈 即 供应 商 名 Smith) 作为 这 个 重 构 记 录 的 SNAME 字段 值 。 

第 三 步 : 从 记录 重 构 表 的 [5, 2] 单元 中 取出 行 编号 3， 即 重 构 记 录 第 三 个 字段 ( 即 STA- 
TUS 字段 } 的 值 在 字段 值 表 中 的 位 置 ， 即 位 置 [3, 3] ， 到 字段 值 表 的 这 个 位 置 上 取出 存储 值 
( 即 status 20) 作为 这 个 重 构 记 录 的 STATUS 字段 值 。 

第 四 步 : 从 记录 重 构 表 的 [3, 3] 单元 中 取出 行 编号 3， 即 重 构 记录 第 四 个 字段 ( 即 CITY 
字段 ) 的 值 在 字段 值 表 中 的 位 置 ， 即 位 置 [3, 4] ， 到 字段 值 表 的 这 个 位 置 上 取出 存储 值 〈 即 
city London) 作为 这 个 重 构 记录 的 CITY 字段 值 。 

第 五 步 ， 从 记录 重 构 表 的 【3, 4] 单元 中 取出 行 编号 1。 到 些 为止， 供应 商 信息 记录 的 下 一 
个 需要 填充 的 字段 应 该 是 第 五 个 字段 ， 但 供应 商 信息 记录 本 身 才 四 个 字段 ， 因 此 这 第 五 个 字段 又 
循环 返回 到 第 一 个 字段 。 因 此 ， 重 构 的 供应 商 记 录 的 下 一 个 字段 (字段 S#) 值 在 字段 值 表 的 第 
一 行 一 也 就 是 单元 [1, 1] 。 而 这 个 位 置 正 是 我 们 的 出 发 点 ， 因 此 处 理 过 程 结束 。 

很 清楚 ， 前 面 的 这 个 操作 序列 重 构 了 供应 商 文 件 的 一 个 记录 ， 即 图 A-3 中 的 第 4 号 记录 : 


| s# | SNRME | sTATUs | cITY | 
4[S1| smith | 20 | London | 


顺便 要 指出 的 是 ， 要 注意 在 前 面 的 这 个 例子 中 我 们 所 用 到 的 行 编号 指针 是 如 何 构 成 一 个 闭环 
的 一 一 实际 上 ， 是 两 个 同 构 的 环 ， 一 个 是 在 字段 值 表 中 ， 一 个 是 在 记录 重 构 表 中 (如 图 A-7 所 
示 )。 注 意 ， 由 于 某 种 原因 ， 这 种 环 被 称 为 Z 字 环 ， 重 构 算法 也 因此 被 称 为 Z 字 环 算法 。 


2 2 3 4 


ENE 
| | 


sl | | 
London 
mith 


图 A-7 指针 环 ( 样 本 值 ) 
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作为 一 个 练习 ， 请 试 着 自己 重 构 另 外 一 个 供应 次 记录 。 如 果 你 从 字段 值 表 中 的 单元 [2, 1] 
开始 ， 你 会 得 到 图 A-3 中 的 记录 3; 从 单元 [3, 1] 开始 ， 将 得 到 记录 5; 从 单元 [4, 1] 开始 ， 
将 得 到 记录 1; 从 单元 [5, 1] 开始 ， 将 得 到 记录 2。 如 果 我 们 按 供应 商 编号 自 顶 向 下 的 次 序 处 
理 整 个 字段 值 表 一 一 也 就 是 说 如 果 我 们 执行 五 次 记录 重 构 过 程 ， 按 照 单元 [1, 1]，[2, 1]， 
[3, 1]，[4, 1] 和 [5, 1] 的 次 序 一 一 那 我 们 就 能 够 重 构 出 整个 供应 商 文件 的 一 个 版 本 ， 并 且 
文件 中 的 记录 是 按照 供应 商 编号 的 升序 排列 。 换 名 话说， 我 们 实现 了 如 下 的 SQL 查询 : 


SELECT S.S#，S.SNAME，S.STATUS，S.CITY 
FROM S 
ORDER BY S# ; 


同样 的 ， 也 实现 了 如 下 的 查询 一 一 
SELECT S.S#, S.SNAME, S.STATUS, S.CITY 
FROM 


ORDER BY S# DESC ; 


我 们 所 要 做 的 就 是 按 供应 商 编号 的 逆序 来 处 理 字段 值 表 ， 也 就 是 按 单元 [5, 1] 然 后 [4, 1] 的 
次 序 来 完成 记录 的 重 构 过 程 。 我 们 不 需要 作 运行 时 间 的 排序 ， 也 不 需要 用 到 索引 。 

更 进一步 来 说 ， 因 为 记录 重 构 表 中 的 指针 构成 一 个 环 ， 我们 可 以 从 环 上 任何 一 点 进入 到 环 
中 。 因 此 当 我 们 应 用 重 构 算 法 时 ， 我 们 可 以 选择 任意 的 起 点 单元 。 例 如 ， 如 果 我 们 从 单元 
[1, 3] 一 一 STATUS 列 的 第 一 个 单元 一 一 开始 ， 我 们 得 到 如 下 的 记录 : 


| St | SNAME | sTATUS | CITY | 
3 s2 | Jones | 10 | Paris | 


(更 准确 的 说 ， 我 们 得 到 了 一 个 按 字段 从 左 到 右 的 次 序 的 记录 ， 首 先是 STATUS ， 然 后 是 
CITY、S#、SNAME。) 在 STATUS 属性 列 上 继续 上 述 过 程 一 一 也 就 是 按 单元 [2, 3], [3, 3]， 
[4, 3] 和 [5, 3] 的 次 序 执行 重 构 过 程 一 一 我 们 最 终 可 以 得 到 按 status 属性 升序 排列 的 供应 商 
信息 文件 : 

SELECT S.STATUS, S.CITY, S.S#, S$.SNAME 

FROM 

ORDER BY STATUS ， 

以 相同 的 方式 ， 如 果 我 们 在 SNAME 属性 列 上 执行 记录 重 构 过 程 ， 那 我 们 就 可 得 到 按 供应 商 
姓名 升序 排列 的 文件 ; 同样 的 ， 如 果 我 们 在 CITY 属性 列 上 执行 记录 重 构 过 程 ， 那 我 们 就 可 得 到 
按 城市 名 升序 排列 的 文件 。 也 就 是 说 ， 记 录 重 构 表 和 字段 值 表 一 起 同时 代表 了 所 有 的 排序 方式 ， 
面 且 没 有 用 到 任何 的 索引 和 运行 时 间 的 排序 。 

接着 让 我 们 考察 如 下 的 查询 ， 它 包含 了 一 个 简单 的 等 值 约束 : 





SELECT S.S#, S.SNAME, S.STATUS, S.CITY 
FROM S 
WHERE S.CITY = 'London' ; 


由 于 CITY 属性 列 在 字段 值 表 中 是 有 序 的 ， 因 此 可 以 使 用 二 分 查找 法 找 出 包含 London 的 单 
元 。 以 图 4-6 的 字段 值 表 为 例 ， 二 分 查找 法 找 出 的 单元 就 是 [2, 4] 和 [3, 4j。2Z 字 环 就 可 以 通 
过 从 [2, 4] 和 [3, 4] 单元 开始 的 指针 链 构造 出 来 。 在 这 个 例子 中 ， 构 造 出 的 乙 字 环 如 下 
所 示 : 


{2,4], [4,1], {3,2], [2,3] 
和 
{3,4}, [1,1], {5,2], (3,31 


将 这 些 Z 字 环 用 相应 字段 值 表 中 的 值 替换 ， 我 们 就 可 以 得 到 查询 结果 记录 : 
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[st |SNRME |sTATUS | cTTY | 

sl a | 32| tongen 

除了 简单 的 ORDER BY 和 等 值 约束 外 ， 字 段 值 表 和 记录 重 构 表 一 起 还 为 许多 其 他 的 用 户 级 
操作 提供 了 直接 的 支持 。 实 际 上 ， 大 多 数 的 基本 关系 操作 一 一 选择 ， 投 影 ， 连 接 等 (这 里 没有 
提 到 复制 和 消 重 ， 它 们 属于 系统 的 内 部 操作 ) 一 一 的 实现 算法 都 依赖 于 以 某 种 次 序 访问 数据 的 
方法 。 以 连接 操作 为 例 ， 在 18 章 中 我 们 看 到 归并 排序 是 一 种 实现 连接 的 很 好 的 方法 , 但 TR 技 
术 使 我 们 可 以 不 做 排序 一 一 至 少 是 不 做 运行 时 间 的 排序 一 一 就 能 完成 归并 连接 (在 字段 值 表 和 
记录 重 构 表 构建 的 过 程 中 就 已 经 完成 了 排序 ) 。 比 如 说 ， 在 供应 商 表 的 CITY 字段 上 做 连接 ， 我 
们 只 需 简 单 的 按 CITY 字段 顺序 访问 两 个 字段 值 表 ， 然 后 做 归并 连接 。 

综 上 所 述 ，TR 技术 将 大 大 简化 优化 系统 的 工作 ， 访 问 路 径 的 选择 程序 ( 见 第 18 章 ) 也 将 
变 的 更 加 简单 一 一 在 某 些 情况 下 是 完全 不 需要 的 。TR 技术 也 不 再 需要 传统 DBMS 系统 中 的 诸如 
索引 ， 哈 希 表 等 辅助 数据 结构 。 因 为 省 去 了 很 多 的 选项 ， 数 据 库 系 统 的 设计 也 变 得 更 加 简单 ， 性 
能 的 调 优 也 因此 而 变 得 简单 。 

3. 记录 重 构 表 的 建立 

考察 对 图 A-3 中 的 表 按 不 同 的 属性 列 排序 的 效果 。 比 如 说 ， 我 们 按 供应 商 编号 的 升序 来 排 
列 记录 ， 那 我 们 可 以 得 到 4, 3, 5, 1, 2 的 记录 顺序 。 我 们 称 这 种 序列 为 “S# 升 序 排列 ”( 简称 为 
S# 排 列 ) 。 其 他 的 排列 如 下 所 示 : 

Ascending SNAME 


mm Ascending STATUS : 
Ascending CITY 


这 些 排 列 可 以 由 如 下 的 排列 表 来 表示 ， 表 中 的 【i, 站 单元 存放 的 是 原 供应 商 文 件 的 记录 号 ， 表 
示 将 原 供应 商 文 件 按 第 j 个 字段 排序 时 【i, 站 中 的 记录 将 出 现在 第 i 个 位 置 。 





NWN 
nn 
[~ 
Na、 
WN 人 GW 
nn 心 


了 2 了 4 
[st | SNRAME [sTATUS [CITY | 





hr 


如 上 表 所 示 ，S# 排 列 就 是 如 下 的 序列 ; 


4, 3, 5, 1, 2 


上 述 排列 的 相反 排列 如 下 所 示 : 


4, 5, 2, 1, 3 


这 个 相反 的 排列 就 是 将 上 述 排列 表 中 S# 下 的 记录 号 重新 排 成 1, 2, 3, 4, 5 的 序列 而 得 到 的 。( 比 
如 说 上 述 表 中 S# 下 的 记录 编号 次 序 为 4, 3, 5, 1, 2， 第 四 个 记录 号 为 1， 第 五 个 为 2， 第 二 个 为 3 
等 等 ) ,更 一 般 地 说 ， 如 果 我 们 把 任意 一 个 排列 看 作 是 一 个 向 量 V， 那么 相反 的 排列 Y” 可 以 根 
据 这 样 的 简单 规则 得 到 : 如 果 V [ 门 = 让 ， 那么 V”[ 六 ] =i。 将 这 个 规则 应 用 到 我 们 给 定 排列 
表 中 的 每 一 列 ， 我 们 可 以 得 到 如 下 的 反 向 排列 表 : 
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现在 我 们 可 以 开始 构造 记录 重 构 表 了 。 比 如 说 ， 属 性 列 S# 可 以 按 如 下 的 步骤 构造 出 来 : 

找到 反 向 排列 表 的 【i, 1] 单元 ， 假 定 那 个 单元 里 的 值 为 r， 并 假定 其 右边 的 单元 ， 即 
[i, 2] 里 的 值 为 r*。 找 到 记录 重 构 表 的 第 r 行 ， 并 将 r” 的 值 填 入 [ 1] 单元 。 

从 i=1 到 i=5 循环 执行 上 述 算 法 即 可 产生 出 记录 重 构 表 的 整个 S# 列 值 。 其 他 属性 列 值 可 以 
类 似 地 产生 。 注 意 : 作为 一 个 练习 ， 我 们 强烈 建议 你 实际 操作 一 下 上 述 算 法 ， 构 造 出 完整 的 记录 
重 构 表 ， 它 可 以 帮助 你 理解 这 个 算法 。 顺 便 再 提 一 下 ， 记 录 重 构 表 的 建立 不 可 约 依赖 于 原文 件 ， 
与 字段 值 表 没 有 任何 关系 。 

4. 记录 重 构 表 不 是 唯一 的 

在 我 们 前 面 小 节 的 讨论 中 ， 我 们 提 到 图 A-3 中 的 供应 商 文件 的 CITY 字段 排列 是 2，1, 4, 3， 
5。 注 意 ， 供 应 商 1 和 S4 都 处 在 同一 个 城市 ，S2 和 S3 也 是 ， 因 此 我 们 可 以 认为 CITY 排列 为 2， 
4, 1, 3, 5 或 者 是 3, 1, 4, 2, 5 或 者 是 3, 4, 1, 2, 5。 换 名 话说 ，CITY 排列 不 是 唯一 的 ” 。 那 也 
就 是 说 排列 表 不 是 唯一 的 ， 因 此 记录 重 构 表 也 不 是 唯一 的 。 尽 管 如 此 ， 对 于 一 个 给 定 的 用 户 级 上 
的 关系 表 ， 总 是 存在 某 些 记录 重 构 表 是 最 合适 的 ， 因 为 它们 表现 了 一 些 一 般 的 记录 重 构 表 所 没有 
的 属性 。 这 些 细节 的 讨论 超出 本 附录 的 范围 ， 进 一 步 的 讨论 可 参考 文献 [A. 1]。 - 


A. 4 列 的 压缩 


观察 图 A-8 ， 它 表示 了 我 们 的 一 个 常用 零件 表 的 文件 结构 ; 图 A-9， 表 示 了 相应 的 字段 值 
表 ; 图 A-10， 表 示 了 一 个 最 优 记录 重 构 表 。 


3 


1 4 5 
Er [PmAme [coroR [werGar [Cry | 


3 


1 4 5 
[Et [FNAME [COLOR [waiGur [CITY | 


Screw |Red 
图 A-8 常用 表 的 文件 结构 图 A-9 图 A-8 的 字段 值 表 


现在 观察 图 A-9 所 示 的 字段 值 表 ， 它 含有 很 多 的 宛 余 一 比如 说 city 字段 中 的 London 出 现 
了 三 次 ，weight 字段 中 的 17.0 出 现 了 两 次 ， 等 等 。 压 缩 这 个 表 的 列 就 是 删除 这 些 元 余 ， 结 果 就 
是 表 中 的 每 一 列 只 包含 了 彼此 不 同 的 值 ， 如 图 A-11 所 示 ， 对 其 的 讨论 如 下 : 

1) 有 选择 性 的 运用 压缩 过 程 是 合法 的 ， 也 是 必要 的 。 在 属性 列 P# 上 就 没有 压缩 点 ， 因 为 零 
件 表 的 编号 是 唯一 的 。 





2 


3 
EE 


Bolt iBlue 


MN 





图 A-10 图 A-8 的 记录 重 构 表 ”图 A-11 图 A-4 的 字段 值 表 压缩 版 


2) 在 压缩 列 中 ， 零 件 文件 的 不 同 记录 是 共享 字段 值 的 。 比 如 说 ， 单 元 [1, 5] 中 的 city 名 
London 就 是 被 三 个 零件 记录 共享 的 : 也 就 是 Pl1, P4 和 P6。 由 于 列 的 这 种 压缩 ， 更 新 操作 ， 尤 其 
是 INSERT, 将 比 以 往 运 行 的 更 快 ， 因 为 他 们 可 以 使 用 已 经 存在 的 字段 值 ， 可 以 考察 用 户 插入 这 
样 一 个 元 组 的 情况 : 编号 列 P7 ，name 列 Nut，color 列 Red ，weight 列 18.0，city 列 London。 正 





加 ”STATUS 排列 具有 与 之 相同 的 情况 ， 但 SNAME 排列 不 是 这 种 情况 。( 很 明显 ，S# 也 不 是 。) 
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如 我 们 在 A. 1 节 已 经 说 明 过 的 ， 更 新 操作 超出 了 本 附录 的 讨论 范围 。 

3) 这 里 的 压缩 列 体现 了 数据 的 一 种 压缩 方式 〈 尽 管 这 种 方式 在 传统 的 直接 影像 实现 中 并 不 
常见 ) 一 一 请 注意 这 种 方式 能 够 达到 多 大 的 压缩 比 。 比 如 说 ， 想 象 一 个 记录 了 司机 执照 信息 的 
机 动车 表 ， 每 个 元 组 中 的 执照 发 放 地 信息 都 是 Califomia， 一 共 大 约 有 2 千 万 个 元 组 ， 但 很 可 能 
没有 2 千 万 个 不 同 的 身高 信息 ， 或 是 2 千 万 个 不 同 的 体重 信息 ， 或 是 发 色 信息 ， 或 是 执照 失效 日 
期 。 换 句 话 说， 压缩 比 可 能 达到 一 百 万 比 1。 

1. 行 的 区 间 

回 到 图 A-11,， 无需 说 明 ， 我们 不 能 简单 的 将 原来 在 city 字段 出 现 了 三 次 的 London 值 替换 成 
图 A-11 中 一 次 出 现 ， 这 样 将 会 丢失 信息 。 因 此 我 们 需要 在 压缩 列 中 加 入 一 些 额外 的 信息 ， 使 得 
我 们 可 以 由 压缩 列表 可 以 重 构 出 原 表 。 一 种 方式 就 是 在 压缩 列 的 每 个 字段 值 旁 加 上 在 原 表 中 出 现 
了 该 字段 值 的 行 的 区 间 ， 如 图 A-12 所 示 : 





1 2 3 4 5 


12.0 {1:2]iLondon [1:3] 
14.0 {3:3]|0slo (4:41 
17.0 [4:5]|Paris [5:6] 








19.0 [6:6] 





[| 








图 A-12 带 行 区 间 的 压缩 字段 值 表 


举例 来 说 ， 考 虑 图 中 的 【3, 4] 单元 ， 其 中 的 值 是 weight 字段 值 17.0， 并 带 有 行 区 间 [4: 5]。 
行 区 间 的 意思 是 指 ， 如 果 这 个 字段 值 表 没 有 被 压缩 ， 那 么 weight 字段 值 17. 0 将 在 weight 列 的 第 
4 到 第 5 行 出 现 。 

顺便 提 一 下 ， 不 要 混淆 [4:5] 和 [4, 5] 两 种 书写 形式 ， 前 者 〈 带 有 冒号 ) 是 指 行 的 区 间 
范围 ， 后 者 〈 带 有 逗号 ) 表示 的 是 表格 中 的 行 值 和 列 值 。 

对 这 个 行 区 间 还 有 另 一 种 看 法 ， 以 图 A-12 中 的 COL- 
OR 属性 列 为 例 ， 它 表达 两 层 意思 : (a) 在 当前 的 零件 文 
件 中 出 现 的 COLOR 值 ，(b) 每 一 个 属性 值 出 现 的 次 数 。 
也 就 是 说 ， 每 一 列 都 可 以 被 看 成 是 一 个 柱状 图 ， 如 图 A-13 
所 示 。 一 般 的 ， 带 行 区 间 的 整个 压缩 字段 值 表 可 以 被 看 作 
是 一 个 柱状 图 的 集合 ， 一 个 柱状 图 都 对 应 一 个 压缩 列 。 因 
此 ， 所 有 涉及 这 些 柱状 图 的 查询 将 得 到 性 能 上 的 提高 ( 比 
如 说 查询 “每 一 种 颜色 有 多 少 个 零件 记录 ?") ， 见 A.6 节 。 。 图 A-13 NM 

如 果 字 段 值 表 可 以 被 看 作 是 一 组 柱状 图 的 集合 ， 那 么 12) 
记录 重 构 表 ， 就 可 以 被 看 作 是 一 组 排列 的 集合 。 比 如 说 ， 如 果 我 们 使 用 图 A-10 记录 重 构 表 的 第 
3 个 属性 列 来 重 构 零件 文件 ， 那 我 们 可 以 得 到 一 个 按 color 排序 的 零件 文件 ; 也 就 是 说 ， 我 们 得 
到 了 那个 文件 的 “COLOR 排列 ”。 

因此 ， 我 们 可 以 认为 任意 给 定数 据 集 的 TR 表示 是 一 个 柱状 图 集合 和 一 个 排列 集合 。 

2. 记录 重 构 算法 的 修正 

字段 值 表 的 压缩 破坏 了 它 与 记录 重 构 表 表格 之 间 的 一 对 一 关系 ， 那 么 我 们 曾经 使 用 过 的 记录 
重 构 算法 需要 做 一 些 修正 ， 但 这 个 工作 并 不 复杂 : 

考察 记录 重 构 表 中 的 [i, j] 单元 ,现在 不 再 去 找 字 段 值 表 的 [ij 单元 ， 而 是 提单 元 
[PP, j] ， 该 单元 中 的 行 区 间 中 包含 了 行 i。 

举例 来 讲 ， 考 察 图 A-10 记录 重 构 表 中 的 [3, 4] 单元 , 它 出 现在 第 四 列 ， 也 就 是 WEIGHT 
列 。 为 了 在 图 A-11 的 字段 值 表 中 找到 相应 的 weight 值 ， 我 们 搜索 字段 值 表 的 WEIGHT 列 ， 找 到 
行 区 间 中 包含 了 行 值 3 的 单元 ， 在 该 图 中 是 单元 [2, 4] (相应 的 行 区 间 是 [3: 3])， 其 中 的 
weight 值 为 14.0。 作 为 练习 ， 请 使 用 图 A-10 中 的 记录 重 构 表 和 图 A-12 中 的 压缩 字段 值 表 重 构 
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整个 零件 文件 〈 为 了 得 到 按 city 字段 升序 排列 的 文件 请 从 第 5 列 开始 ) 。 
A. 5 列 的 合并 


在 前 面 的 一 小 节 中 ， 我 们 讨论 了 压缩 列 ， 一 种 在 记录 间 共 享 字 段 值 的 方法 一 一 这 些 记录 都 是 
来 自 于 同一 个 文件 。 列 的 合并 ， 可 以 看 作 是 在 相同 或 不 同 的 文件 的 记录 间 共 享 字 段 值 的 方法 。 基 
本 的 想法 是 ， 如 果 数 据 的 类 型 都 相同 ， 那 么 文件 级 别 上 的 不 同 字 段 可 以 映射 到 TR 级 别 上 字段 值 
表 的 相同 属性 列 上 。 

我 们 先 讨论 只 有 一 个 文件 的 例子 ， 考 察 图 A-14 中 的 bill-of-materials 关系 表 (第 4 章 图 4-6 
的 一 个 变形 ) 。 首 先 ， 我 们 先 看 看 没有 列 合并 的 情况 ; 然后 再 给 出 应 用 了 列 合并 的 技术 后 情况 的 
变化 。 图 A-15 表示 了 与 图 A-14 相应 的 一 个 文件 结构 ; 图 A-16 表示 了 相应 的 压缩 字段 值 表 ; 图 
A-17 则 表示 了 一 个 相应 的 最 优 记录 重 构 表 。 
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图 A-15 图 A-14 关系 表 的 一 种 文件 结构 
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图 A-16 图 A-15 文件 的 压缩 字段 值 表 图 A-17 图 A-15 文件 的 记录 重 构 表 


我 们 现在 开始 讨论 列 的 重 构 ， 观 察 图 A-14 的 关系 表 MMQ ， 很 明显 属性 列 MAJOR_P# 和 属 
性 列 MINOR_P# 具 有 相同 的 类 型 ， 因 此 在 文件 中 与 之 相对 应 的 字段 也 就 具有 相同 的 类 型 。 于 是 ， 
可 以 将 它们 对 应 到 字段 值 表 中 的 相同 的 属性 列 。 如 图 A-18 所 示 ， 讨 论 如 下 : 

1) 属性 列 MAJOR_P# 和 属性 列 MINOR_P# 被 合并 成 同一 列 ， 该 列 包含 了 原 MAJOR_P# 和 
MINOR_P# 属 性 列 中 所 有 的 字段 值 (也 就 是 零件 编号 ) ， 元 余部 分 被 删除 。 

2) 合并 列 中 的 每 一 个 单元 包含 了 单一 的 零件 编号 以 
及 两 个 行 区 间 。 第 一 个 行 区 间 对 应 于 未 压缩 的 字段 值 表 中 
的 “major” 编 号 ， 第 二 个 行 区 间 对 应 于 “minor” 编号 。 
这 里 的 行 区 间 一 一 除了 空 区 间 “ [ :] ”外 一 一 等 同 于 我 们 
先前 讨论 的 字段 值 表 中 的 行 区 间 ， 空 区 间 表 示 在 未 压缩 的 
字段 值 表 中 的 相应 行 没有 对 应 的 零件 编号 (比如 说 ， 在 
“minor” 编号 中 就 从 没有 P1 ) 。 

3) 在 合并 的 表 中 ,合并 的 列 是 第 一 列 ，QTY 属性 列 ”图 A-18 图 A-16 中 合并 了 前 两 个 
是 第 二 列 (因此 在 合并 表 中 ， 列 的 俄 数量 是 2， 不 是 3)， 属性 列 的 字段 值 表 
属性 列 QTY 等 同 于 图 A-16 中 QTY 列 。 
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4) 记录 重 构 表 保持 原样 9 。 但 其 第 1， 第 2 列 对 应 于 合并 字段 值 表 的 合并 列 ， 第 1 列 对 应 
合并 列 中 第 1 个 行 区 间 ， 第 2 列 对 应 第 2 个 行 区 间 ， 第 3 列 对 应 字段 值 表 的 第 2 列 。 

列 合并 的 思想 有 很 多 的 优点 ， 这 里 我 们 就 给 出 一 个 实现 连接 操作 的 例子 以 示 说 明 。 假 如 我 们 
要 做 一 个 表 MMQ 的 自 连接 ， 设 连接 中 的 MMQ 表 分 别 为 MMQa 和 MMQb， 连 接 的 条 件 是 
MMQa. minor = MMQb. major。 那 么 我 们 只 需 在 合并 的 字段 值 表 上 作 一 次 遍历 就 能 给 出 哪些 元 组 
是 可 以 做 连接 的 。 比 如 说 ， 合 并 字段 值 表 中 的 第 3 行 ， 其 合并 列 中 含 零件 编号 P3 以 及 “minor” 
区 间 [2:3], “major” 区 间 [7:8]， 马 上 就 可 以 得 出 结论 : MMQa 中 的 第 2 和 第 3 行 可 以 与 
MMQb 中 的 第 7 和 第 8 行 做 连接 。 其 他 行 可 依 此 类 推 。 实 际 上 ， 在 这 种 情况 下 ， 我 们 可 以 不 作 排 
序 和 合并 而 直接 进行 排序 /归并 连接 3 (正如 本 附录 前 面 曾 提 到 的 ) 。 

注意 : 上 述 结论 并 不 能 应 用 于 表 中 任何 非 合 并 列 ， 原 因 如 下 所 述 : 

a 令 Fl 为 图 A-18 中 的 字段 值 表 和 图 A-17 中 的 记录 重 构 表 通 过 自 顶 向 下 的 次 序 处 理 MAJOR 

_P# 属 性 列 而 得 到 的 文件 。 那 么 MMQa 所 对 应 的 文件 即 为 FL， 即 MMQa 中 的 第 i 个 元 组 
是 唯一 对 应 于 文件 Fl 中 第 i 个 记录 的 元 组 。 
sm 同样 的 ， 令 F2 为 图 A-18 中 的 字段 值 表 和 图 A-17 中 的 记录 重 构 表 通过 自 顶 向 下 的 次 序 处 
理 MINOR_P# 属 性 列 而 得 到 的 文件 。 那 么 MMQb 所 对 应 的 文件 即 为 F2， 即 MMQb 中 的 第 
; 个 元 组 是 唯一 对 应 于 文件 F2 中 第 i 个 记录 的 元 组 。 

最 后 ， 我 们 还 要 强调 一 次 ， 列 合并 的 思想 不 仅 可 以 应 用 于 单个 文件 ， 同 样 可 以 应 用 于 多 个 文 
件 。 以 供应 商 信息 表 和 零件 表 为 例 ， 对 整个 数据 库 ， 我 们 可 以 只 要 一 个 字段 值 表 ， 一 列 是 供应 商 
编号 ， 一 列 是 零件 编号 ,一 列 是 city 名 等 等 。 实 际 上 ，TR 技术 允许 在 字段 值 表 中 包含 数据 库 里 
任何 关系 表 可 能 都 没有 的 字段 值 ， 因 此 我 们 可 以 认为 TR 是 真正 的 “面向 域 ” 的 数据 库 表 示 方 
式 ， 见 参考 文献 [A. 1] 中 的 进一步 讨论 。 


A.6 关系 操作 的 实现 


在 本 节 中 ， 我 们 将 简要 的 讨论 TR 技术 对 某 些 关 系 操作 的 实现 。 我 们 的 讨论 基于 供应 商 - 零 
件 -项 目 数据 库 实 例 〈 实 例 中 的 值 如 图 A-19 所 示 ) 。 合 并 压缩 的 字段 值 表 如 图 A-20， 一 个 最 优 
的 记录 重 构 表 如 图 A-21 。 

1. 约束 

考虑 如 下 的 约束 查询 。: 


SPJ WHERE QTY = 200 


为 实现 这 个 查询 ， 我 们 在 (图 A-20) 字段 值 表 的 QTY 属性 列 上 作 二 分 查找 ， 找 到 包含 值 200 的 
单元 ; 注意 如 果 这 样 的 值 存在 的 话 ， 那 它 必 定 是 唯一 的 ， 因 为 列 是 压缩 过 的 。 如 果 没 找到 ， 那 我 
们 马上 就 知道 查询 结果 为 空 。 在 当前 这 个 例子 中 ,我们 将 找到 [2, 7] 单元 ， 除 了 相应 的 字段 
值 ， 还 包含 行 区 间 [3:6]。 那 么 货运 表 的 记录 重 构 表 中 的 单元 [3, 7], [4, 7], [5, 7]， 
[6, 7]; 
a 包含 了 字段 值 表 中 含 QTY 属性 值 为 200 的 单元 的 行 编号 《他 们 的 确 都 包含 了 行 编号 2)。 
b. 包含 了 货运 记录 重 构 表 的 “下 一 个 ”单元 的 行 编号 。 
Z 字 环 因此 可 以 根据 货运 的 记录 重 构 表 的 指针 环 构 造 出 来 。 在 这 个 例子 中 ,构造 出 的 Z 字 环 如 下 
所 示 : 





实际 上 有 许多 改进 的 方法 ,但 这 些 方法 不 在 本 附录 的 讨论 范围 之 内 。 

全 ”更 准确 的 说 ， 排 序 和 合并 都 不 是 在 运行 时 间 完 成 的 ， 而 是 提前 完成 的 ， 也 就 是 在 字段 值 表 和 记录 重 构 表 建 立 的 
过 程 中 。 

含 在 本 附录 的 后 面部 分 我 们 都 是 用 Tutorial D， 而 不 是 SQL。 
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S| S# |SNAME |STATUS 











图 A-19 关系 变量 S 和 SPJ (实例 值 ) 





3 
STATUS 


10 [1:1] 
20 [2:3] 














pl [1:4] |s1 100 [1:21 
P2 [5:6] | JI2 200 [3:6] 


P3 [7:9] 500 [7:9] 





Nm 和 en 


1| 2 
2| 8 
了 | 3 
4 4 
5| 5 
6| 1 
7| 6 
8| 7 
93L 9 
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图 A-21 供应 商 表 和 货运 表 的 记录 重 构 表 


根据 此 Z 字 环 遍历 货运 的 记录 重 构 表 ， 并 从 相应 的 字段 值 表 中 取得 字段 值 ， 我 们 可 以 得 到 
如 下 的 结果 : 


ERNENEDKE 


200 










S3 


第 二 个 例子 ， 考 虑 带 “ < ”约束 的 查询 : 


SPJ WHERE QTY < 150 


这 样 的 查询 也 很 容易 处 理 ， 步 又 如 下 : 
a. 在 字段 值 表 的 QTY 属性 列 上 做 顺序 查找 。 
b. 对 找到 的 每 一 个 单元 重 构 所 有 相应 的 记录 以 及 用 户 级 上 的 元 组 。 
c. 当 发 现 字段 值 表 的 QTY 属性 列 中 的 值 等 于 或 大 于 150 时 结束 操作 过 程 。 


P3 | J2 | 200 
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结果 如 下 : 
S# | P# 
了 3 | 72 | 100 
Pi J1 100 


现在 考虑 下 面 的 这 样 一 个 查询 : 

SPJ WHERE S# = S# ('S3') AND OQOTY = 100 
通过 在 字段 值 表 的 S# 和 QTY 属性 列 上 的 搜索 ， 我 们 从 找到 的 行 区 间 中 发 现 有 四 个 货运 记录 的 供 
应 商 编号 为 S3 ， 但 只 有 两 个 的 QTY 值 是 100。 因 此 最 好 的 方法 就 是 使 用 与 QTY = 100 相关 的 zig- 
zag ， 然 后 在 记录 重 构 的 过 程 中 检查 其 供应 商 编号 是 否 是 S3 ， 如 果 不 是 就 停止 重 构 过 程 。 结 果 如 
下 : 

Lr 

100 

最 后 ， 我 们 来 考虑 将 AND 用 OR 替换 后 的 变化 : 


SPJ WHERE S# = S# ('S3') OR QTY = 100 














我 们 可 以 先 找 出 所 有 供应 商 为 S3 的 元 组 ， 然 后 找 出 所 有 QTY 值 为 100 且 在 上 -- 步 没有 出 现 
的 元 组 〈 或 者 是 将 上 面 两 步 的 次 序 颠 倒 ) 。 如 果 是 按 这 种 方式 ， 并 且 两 次 查找 的 结果 都 按 相同 的 
属性 排序 〈 比 如 说 都 是 按 S# 的 升序 排列 ) ， 那 么 它们 合并 后 即 可 产生 如 下 整个 结果 ; 


Lo 
2 


100 
100 
500 
200 
200 





2. 投影 

要 计算 投影 SPJ | S#，P#，J#| ， 我 们 只 需 为 货运 执行 通常 的 重 构 过 程 ， 但 在 每 个 记录 中 要 跳 
过 属性 QTY 的 重 构 步 又。 如 果 要 计算 投影 SPJ | S#，P#} 一 一 与 前 面 的 这 个 例子 稍 有 不 同 的 就 
是 要 删除 重复 行 j i 
即 S# - P# (或 者 是 P#-S#); 在 这 种 次 序 下 重复 的 元 组 将 处 在 邻近 的 位 置 ， 有 利于 删除 重复 项 。 
这 里 我 们 略 去 了 进一步 的 细节 ， 但 要 指出 的 就 是 “最 优 ”记录 重 构 表 之 所 最 优 是 因为 它们 支持 
这 种 排序 。 

3. 聚集 


SUMMARIZE SPJ PER S { S# } ADD COUNT AS SHIP_COUNT 
下 面 是 查询 结果 : 


ENEZZ 














图 A-20 中 的 字段 值 表 的 S# 属 性 列 如 下 所 示 : 
很 明显 ， 查 询 结 果 可 以 直接 由 该 列 的 行 区 间 求 得 。 
下 面 是 另外 一 个 例子 (注意 我 们 这 里 使 用 了 素 集 的 BY 变量 ): 
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SUMMARIZE SPJ BY { S# } ADD MIN ( QTY ) AS NNQ 


我 们 以 供应 商 S2 为 例 考 察 这 个 查询 的 实现 方式 ， 图 A-20 的 字段 值 表 中 S2 的 行 区 间 为 
[3:5] ， 嗓 货运 的 记录 重 构 表 中 对 应 S2 的 行 是 第 3，4，5 行 一 一 即 满足 要 求 的 单元 是 [3, 1]， 
[4, 1], [5, 1]。 根 据 表 中 QTY 单元 的 Z 字 环 ， 我 们 可 以 找到 字段 值 表 中 的 对 应 行 一 一 分 别 是 
第 2,3 行 和 第 3 行 。 因 为 QTY 属性 列 在 字段 值 表 中 是 升序 排列 的 ， 很 明显 ，S2 的 QTY 属性 的 
最 小 值 就 是 字段 值 表 第 2 行 的 值 ， 即 200。 

4. 连接 

在 前 面 的 小 节 中 ， 我 们 曾 讨论 过 连接 操作 的 实现 方式 。 这 里 我 们 再 给 出 一 些 讨论 : 

m 因为 TR 技术 高 效 的 实现 了 排序 /归并 连接 ， 并 且 排 序 和 归并 操作 都 是 在 系统 装载 的 过 程 

中 完成 ， 运 行 时 的 连接 代价 是 线性 的 。 参 考 文献 [A.1] 给 出 了 一 个 包含 五 个 表 连 接 的 例 
子 ，TR 技术 只 需要 5 秒 的 操作 时 间 ， 而 一 般 的 实现 方式 ( 见 第 18 章 ) 将 需要 3 万 亿 年 ， 
或 者 说 是 宇宙 年 龄 的 200 倍 。 

s 需要 连接 的 表 越 多 ，TR 技术 的 优势 就 越 明显 。 

a 因为 所 有 的 连接 都 是 以 相同 的 方式 实现 的 ， 因 此 不 需要 像 直接 影像 系统 那样 做 复杂 的 访问 

路 径 选择 。 
as 直接 影像 系统 中 的 访问 路 径 选择 往往 是 准确 度 不 够 ， 因 为 中 间 结 果 大 小 的 估计 是 很 困 
难 的 。 

5. 并 、 交 、 差 

作为 本 节 示 例 的 基础 ， 我 们 扩展 前 面 的 示例 数据 库 ， 使 其 包含 零件 的 关系 变量 P 以 及 它 的 一 
些 示例 值 。 同 样 我 们 还 要 扩展 合并 字段 值 表 的 CITY 属性 列 ， 使 其 包含 零件 的 city 名 以 及 相应 的 
行 区 间 ， 如 下 所 示 : 





现在 考虑 


xX {CITY } opY {CITyY ) 


形式 的 操作 ， 其 中 X 为 8 或 是 已 ，op 表示 UNION，INTERSECT 或 是 MINUS。 那 么 使 用 字 
段 值 表 中 合并 CITY 属性 列 实现 这 些 操作 的 方法 是 很 明显 的 。 讨 论 如 下 : 
a 并 : 对 于 结果 集中 的 每 个 city 名 元 组 ， 它 要 么 在 供应 商 表 中 有 非 空 的 行 区 间 ， 要 么 在 零件 
表 中 有 非 空 的 行 区 间 ， 或 者 两 者 都 有 。 也 就 是 说 ， 并 集合 是 合并 列 中 的 所 有 city 名 。 
s 交 : 对 于 结果 集中 的 每 个 city 名 元 组 ， 它 必须 在 供应 商 表 和 零件 表 中 都 有 非 空 的 行 区 间 。 
m 差 ， 如 果 久 为 S， 那 么 对 于 结果 集中 的 每 个 city 名 元 组 ， 它 在 供应 商 表 中 的 行 区 间 必 须 非 
空 ， 而 在 零件 表 中 的 行 区 间 为 空 。 相 似 的 ， 如 果 XX 为 P， 那 么 结果 集中 的 元 组 在 零件 表 中 
的 行 区 间 非 空 ， 在 供应 商 表 中 的 行 区 间 为 空 。 
所 有 这 些 操作 都 可 以 通过 在 合并 字段 值 表 的 CITY 属性 列 做 一 次 遍历 来 完成 。 
6. 结论 
使 用 TR 技术 实现 关系 操作 还 有 很 多 值得 讨论 的 东西 ,但 本 节 中 所 讨论 的 例子 已 经 足够 描绘 
出 主要 的 思想 。 下 面 我 们 再 给 出 TR 的 其 他 一 些 优点 : 
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ms 直接 影像 的 实现 方式 有 时 需要 物化 一 些 中 间 结 果 ，TR 同样 需要 做 这 样 的 工作 ,但 TR 中 
的 物化 ; (a) 使 用 的 概率 不 大 ; (b) 效率 更 高 (主要 是 因为 预 排序 ) 。 

a 候选 码 〈 值 唯一 ) 和 外 码 约束 在 TR 技术 中 的 实现 非常 高 效 ， 这 要 归功 于 字段 值 表 是 经 过 
压缩 和 合并 的 。 

sa 下 面 是 Codd 在 他 的 第 一 篇 关系 模型 论文 中 的 一 段 话 : 
一 且 意 识 到 某 个 关系 的 存在 ， 用 户 就 会 期 望 能 够 组 合 这 个 表 “ 已 知 ”的 属性 和 某 些 “ 未 
知 ” 的 属性 。 这 是 一 种 我 们 称 为 关系 对 称 开发 的 系统 特征 (目前 许多 的 信息 系统 都 不 具 
备 这 一 特征 ) ， 但 一 般 得 不 到 对 称 的 系统 性 能 。 

TR 技术 同样 给 我 们 带 来 了 性 能 上 的 对 称 性 ! 或 者 说 ， 它 至 少 在 这 一 点 上 要 比 直接 影像 

系统 做 得 好 一 一 由 于 字段 值 和 连接 信息 的 分 离 ， 使 得 数据 可 以 同时 高 效 的 以 多 种 排列 顺序 存放 。 


A.7 小 结 


我 们 简要 的 讨论 了 TR 模型 ， 一 种 实现 关系 DBMSs 的 全 新 的 方式 。TR 模型 代表 了 一 种 更 为 
通用 的 叫做 Tarin 转换 法 的 特定 应 用 ，Tarin 转换 法 是 用 于 实现 多 种 数据 存储 和 检索 系统 的 技术 ， 
它 是 美国 专利 局 的 一 项 专利 ， 归 属于 一 个 叫做 Required Technologies 的 公司 (hitp: //www. 
requiredtech. com) 。 

我 们 已 经 讨论 了 在 只 读 ， 主 存 数 据 库 中 的 TR 模型 ， 尽 管 我 们 的 讨论 并 不 深入 ， 但 已 经 完全 
可 以 看 出 它 与 传统 的 直接 影像 技术 截然 不 同 。 现 在 ， 也 许 你 还 有 许多 疑问 ， 比 如 说 

a 当面 临 对 数据 库 任意 的 更 新 时 ， 字 段 值 表 和 记录 重 构 表 能 得 到 有 效 维护 吗 ? 

m 因为 记录 重 构 表 和 原文 件 是 同 构 的 一 一 实际 上 ， 是 与 原 关系 同 构 一 一 但 在 每 个 单元 中 存放 

的 是 指针 而 不 是 数据 值 ，TR 技术 是 否 比 传统 的 直接 影像 系统 需要 更 少 的 存储 空间 ? 
s 在 基于 外 存 的 系统 中 ，Z 字 环 是 不 是 就 意味 着 大 量 的 随机 访问 ， 从 而 导致 低劣 的 性 能 呢 ? 
在 外 存 中 的 二 分 查找 能 否 高 效 实现 ? 
等 等 诸如 此 类 的 问题 。 这 些 问题 都 是 需要 考虑 的 ， 但 这 里 无 法 一 一 讨论 ; 但 这 些 问题 都 已 经 得 到 
很 好 的 解决 并 且 已 经 有 了 实现 。 进 一 步 的 讨论 请 参考 文献 [A.1] 和 [A.2]。 
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附录 B SQL 表达 式 


B. 1 引言 


表 和 布尔 表达 式 是 SQL 语句 的 核心 。 在 本 附录 中 我 们 给 出 了 这 些 表达 式 的 BNF 语法 ， 同 时 
给 出 了 某 些 情况 下 这 些 表达 式 的 语义 。 但 我 们 省 去 了 下 面 的 这 些 内 容 : 

s 标量 表达 式 的 细节 

sm WITH 的 递归 形式 的 细节 

@ 非 标量 表达 式 < select item >s 

下 < table rer> 和 <type spec> 的 ONLY 变量 

ma GROUP BY 的 GROUPING SETS ，ROLLUP 和 CUBE 选项 

四 条 件 BETWEEN，OVERLAPS 和 SIMILAR、 

a 所 有 与 空 值 相关 的 内 容 

然而 ， 需 要 说 明 一 点 : 因为 我 们 认为 标准 [4.23] 中 的 术语 不 太 恰 当 ， 所 以 在 依据 语法 进 
行 的 分 类 中 和 在 SQL 语言 的 构造 中 这 里 所 使 用 的 名 称 跟 [4. 23] 的 标准 中 使 用 的 名 称 是 不 同 的 ; 
实际 上 ， 本 书 中 所 使 用 的 表 表 达 式 、 条 件 表达 式 和 标量 表达 式 就 不 是 标准 术语 。 特 别 地 ， 我 们 分 
别 将 < table value constructor > 、< row value constructor > 缩写 为 < table constructior > 、 
< row constructor > 。 


B.2 表 的 表达 式 
下 面 是 一 个 < table expression > 〈 表 的 表达 式 ) 的 BNF 文法 。 


<table exp> 
::= <with exp> | <nonwith exp> 


<with exp> 
3 WITH { RECURSIVE |] 
<table name> { { <column name commalist> ) ] ] 
AS ( <table exp> ) 
<nonwith exp> 


<nonwith exp> 
::= <join table exp> | <nonjoin table exp> 


<join table exp> 
:= <table ref> { NATURAL ] JOIN <table ref> 
{ ON <bool exp> 
| VSING ( <column name commalist> ) ] 
<table ref> CROSS JOIN <table ref> 
( <join table exp> ) 


<table ref> 
:= <table name> [ [ AS |] <range Var name> 
{ ( <column name commalist> ) ] ] 
| ( <nonwith exp> ) { AS ] <range var name> 
( ( <column name commalist> )} ] 
| <join table exp> 


<nonjoin table exp> 
:1:= <nonjoin tabile term> 

<nonwith exp> UNION [ ALL | DISTINCT ] 

{ CORRESPONDING [ BY ( <column name commalist> ) ] ] 
<table term> 

<nonwith exp> EXCEPT [ ALL | DISTINCT ] 

[ CORRESPONDING [ BY ( <column name commalist> ) )】 } 
<table term> 


<nonjoin table term> 








:= <nonjoin table primary> 
| <table term> INTERSECT [ ALL | DISTINCT ] 
{ CORRESPONDING [ BY ( <column name commalist> ) ] ] 
<table primary> 


<table term> 
::= <nonjoin table term> | <join table exp> 


<table primary> 
::= <nonjoin table primary> | <join table exp> 


“nonjoin table primary> 

TABLE <table name> 
<table constructor> 
<select exp> 

{ <nonjoin table exp> ) 





<table constructor> 
3 := VALUES <row constructor commalist> 


<row constructor> 
:= <scalar exp> 
( <scalar exp commalist> ) 
( <table exp> ) 


<select exp> 
::= SELECT [ ALL | DISTINCT } <select item commalist> 
FROM <table ref commalist> 
{ WHERE <bool exp> ] 
{ GROUP BY <column name commalist> ] 
{ HAVING <bool exp> ] 


<select item> 
:= <scalar exp> { [ AS } <column name> ] 
| [ <range var name>. ] * 


下 面 对 < select expression > 进行 详细 阐述 ， 因 为 在 实际 使 用 中 ， 该 表达 式 是 最 重要 的 。 一 
< select expression > 可 以 不 很 严格 地 看 作 是 一 个 没有 JOIN、UNION 、EXCEPT 和 INTERSECT 操 
作 的 < table expression > 。 之 所 以 说 不 很 严格 ， 是 因为 这 些 运算 符 可 以 出 现在 某 些 嵌 套 在 < select 
expression > 的 表达 式 中 。 正 如 前 面 的 文法 中 所 写 的 ， 一 个 < select expression > 按 硕 序 包括 : SE- 
LECT 子 句 ，FROM 子 句 、 可 选 的 WHERE 子 句 、GROUP BY 子 句 和 HAVING 子 句 。 下 面 依 次 来 
介绍 这 些 子 句 。 

1. SELECT 子 名 

下 面 是 SELECT 子 句 的 形式 : 


SELECT { ALL | DISTINCT ] <select item commalist> 


说 明 

1) < select item commalist > 不 能 为 空 ? ( < select item > 的 详细 介绍 可 参见 下 面 ) 。 

2) 如 果 没 有 指定 是 ALL 还 是 DISTINCT， 默 认 是 ALL”。 

3) 此 时 假定 已 经 执行 完 FROM、WHERE、GROUP BY 和 HAVING 子 句 。 无 论 这 些 子 句 是 
给 定 的 还 是 忽略 的 ， 执 行 完 这 些 子 句 后 ， 概 念 上 来 说 得 到 一 个 表 ， 这 个 表 可 能 是 一 个 “组 ” 表 
(可 参见 后 面 的 介绍 ) ， 称 这 个 表 为 71， 该 表 将 会 在 后 面 用 到 。 注 : 这 个 概念 结果 实际 上 是 没有 
命名 的 。 

4) 假定 72 是 通过 在 7T1 上 执行 指定 的 < select item > 而 从 71 中 得 到 的 。 

5) 假定 23 是 通过 指定 DISTINCT 从 72 或 者 是 跟 72 同样 的 表 中 消除 元 余 行 后 得 到 的 。 

6) 7T3 是 最 后 的 结果 。 

现在 对 < select item > 做 一 下 解释 。 对 < select item > ， 需 要 考虑 两 种 情况 ， 但 是 因为 第 二 种 
情况 是 第 一 种 情况 的 < select item > 的 逗号 列表 的 简写 ， 因 此 ， 第 一 种 情况 更 加 基本 。 





名 “实际 上 ， 本 附录 中 提 到 所 有 lists 和 commalists 都 必须 非 空 。 
昌 ” 也 就 是 说 ，SELECT 默认 的 是 ALL。 而 UNION, INTERSECT 或 是 EXCEPT 默认 的 是 DISTINCT。 
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第 一 种 情况 : < select item > 的 形式 是 ， 


<scalar exp> [ [ AS ] <column name> | 


< scalar expression > 可 以 包含 Tl 表 的 一 个 或 多 个 列 ( 见 说 明 的 第 3 点 ) ， 当 然 这 种 包含 不 是 
必需 的 。 对 7T/ 中 的 每 一 行 ， 执 行 < scalar expression > 将 产生 一 标量 结果 。 在 Tl 表 每 一 行 上 执行 
SELECT 子 名 中 的 所 有 < select item > ， 将 得 到 一 个 结果 的 逗号 列表 。 这 个 逗号 列表 就 是 72 表 
(网上 面 说 明 的 第 4 点 ) 的 一 行 。 如 果 < select item > 包括 一 个 AS 子 句 ， 那 么 ， 该 子 句 中 的 没有 
限定 的 < column name > 将 赋值 到 72 对 应 的 列 上 ， 当 然 ， 可 以 忽略 可 选 的 AS 关键 字 ， 这 不 会 影 
响 执行 结果 。 如 果 < select item > 子 句 没有 包含 AS 子 句 ， 就 有 两 种 情况 需要 考虑 ; (a) 如 果 它 
只 包含 了 简单 的 可 能 有 限定 的 < column name > ，< column name > 就 作为 72 中 对 应 的 列 名 ; 
(b) 否则 ，72 中 对 应 的 列 就 没有 有 效 的 列 名 〈 实 际 执行 中 ， 将 对 72 中 的 列 赋值 一 个 执行 依赖 
的 列 名 ) 。 下 面 再 做 几 点 说 明 : 

s 特别 地 ， 因 为 在 AS 子 句 中 引入 的 列 名 是 72 的 列 名 ， 而 不 是 TI 的 列 名 ， 所 以 在 构造 刀 

的 WHERE、GROUP BY 和 HAVING 子 名 时， 就 不 能 直接 包含 该 列 名 。 然 而 ， 它 在 任何 情 
况 下 (特别 地 ， 在 DECLARE CURSOR 中 ) 可 以 在 一 个 相关 连 的 ORDER BY 子 句 中 参 
照 ， 也 可 以 在 一 个 包含 < select expression > 的 <table expression > 中 参照 使 用 。 

s 如 果 < select item > 包括 一 个 聚集 操作 符 ， 而 且 < select expression > 不 包含 GROUP BY 子 
句 ， 那 么 : 若 71 的 列 没有 作为 聚集 操作 符 的 参数 或 者 部 分 参数 使 用 ， 则 SELECT 子 句 中 
的 < select item > 就 不 能 参照 Tl 中 的 任何 列 。 

第 二 种 情况 : < select item > 是 如 下 的 形式 ， 


{ <range Var name> 。 ] * 


如 果 忽 略 了 限定 词 ， 例 如 ，< select item > 只 是 没有 限定 的 星 号 ， 那么 这 个 < select item > 就 
是 SELECT 子 句 中 的 唯一 的 < select item > 了 。 这 是 一 种 按照 从 左 往 右 的 顺序 列 出 71 中 的 所 有 的 
列 名 的 简写 方式 。 如 果 包 含 了 限定 词 ， 如 ，< select item > 包括 了 一 个 由 范围 变量 名 所 限定 的 星 
号 : R. * ， 那么 < select item > 就 会 按照 从 左 往 右 的 顺序 列 出 跟 范围 变量 R 相 联 系 的 表 的 所 有 列 
的 < column name > 的 逗号 列表 。(8.6 节 中 曾经 介绍 过 ， 一 个 表 的 名 字 经 常会 作为 一 个 隐 含 的 范 
围 变量 。 这 样 ，< select item > 就 经 常 是 T. * 的 形式， 而 不 是 R. * 的 形式 。) 

2. FROM 子 铝 

FROM 子 句 的 形式 如 下 : 


FROM <table ref commalist> 


指定 < table ref > 分 别 对 应 表 4,B,…,Z。 那 么 ，FROM 子 句 的 执行 结果 就 是 一 个 等 同 于 4， 
B,..….,Z 做 笛 卡 尔 积 (SQL - 风格 ) 后 得 到 的 表 。 

3. WHERE 子 名 

WHERE 子 句 的 形式 如 下 : 


WHERE <bool exp> 


假定 增加 了 前 面 的 FROM 子 句 后 执行 得 到 的 结果 是 了 表 。 而 WHERE 子 句 的 结果 则 是 将 了 
表 中 不 符合 < conditional expression > 的 行 去 掉 后 得 到 的 。 如 果 忽 赂 掉 WHERE 子 句 ， 结 果 就 仍 
是 7T。 

4. GROUP BY 子 名 

GROUP BY 子 句 的 格式 如 下 : 


GROUP BY <column name commalist> 


假定 执行 了 前 面 FROM 子 句 和 WHERE 子 句 之 后 ， 执 行 结果 是 了 表 。 每 一 个 在 GROUP BY 
子 句 中 的 <column name > 必须 是 了 表 的 一 个 可 选 的 有 限定 的 列 名 。GROUP BY 子 句 的 结果 是 一 
个 组 表 ， 一 一 也 就 是 ， 组 的 集合 (每 个 组 中 又 包括 若干 行 )。 通 过 概念 上 重新 排列 了 表 中 的 行 ， 
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使 组 数 减 小 到 最 少 ， 就 得 到 了 组 表 中 的 行 ， 组 表 中 的 每 一 个 组 中 的 所 有 记录 行 在 GROUP BY 子 
名 所 指定 的 列 组 合 上 具有 相同 的 值 。 因 此 要 注意 ， 这 个 结果 不 是 一 个 “真正 的 表 ”( 即 不 是 一 个 
记录 行 的 表 ， 而 是 由 组 组 成 的 一 个 表 ) 。 然 而 ， 如 果 没 有 相应 的 SELECT 子 句 ，GROUP BY 子 句 
也 不 会 出 现 ，SELECT 语句 就 是 从 组 表 中 得 到 真正 的 表 (记录 行 的 表 ) 。 因 此 ， 这 种 对 关系 框架 
的 临时 偏离 对 最 后 的 结果 没有 很 大 的 影响 。 

如 果 < select exp > 包括 一 个 GROUP BY 子 句 ， 那 么 相应 的 SELECT 子 句 的 形式 就 会 有 限制 。 
特别 地 ，SELECT 子 句 (包括 星 号 简写 的 形式 ) 中 的 每 一 个 < select item > 在 每 个 组 中 只 有 一 
个 值 。 

5. HAVING 子 句 

HAVING 子 句 的 格式 如 下 : 


HAVING <bool exp> 


假定 在 增加 了 前 面 的 FROM 子 句 、WHERE 子 句 和 GROUP BY 子 句 之 后 执行 得 到 的 结果 是 
G 表 。 如 果 没 有 GROUP BY 子 句 ， 那 么 G 就 是 在 只 执行 FROM 和 WHERE 子 句 的 情况 下 得 到 的 
表 ， 是 一 个 只 有 一 个 组 的 表 ? 。 换 句 话 说， 在 这 种 情况 下 ， 有 一 个 隐 含 的 、 概 念 上 的 GROUP 
BY 子 句 ， 该 子 句 没有 指定 进行 分 组 所 需要 参照 的 列 。HAVING 子 句 的 结果 就 是 将 G 表 中 不 满足 
条 件 < bool expression > 的 组 去 掉 后 所 得 到 的 表 。 下 面 再 做 几 点 说 明 
a 如 果 省 略 了 HAVING 子 句 ， 但 是 仍然 包括 有 GROUP BY 子 句 ， 执 行 的 结果 就 是 G。 如 果 
HAVING 子 句 和 GROUP BY 子 句 都 省 略 了 ， 结 果 就 是 只 执行 FROM 和 WHERE 子 句 后 得 
到 的 了 7 表 ， 是 没有 分 组 的 。 
@ HAVING 子 句 中 的 任何 < scalar expression > 在 每 组 中 必须 只 能 有 一 个 值 (这 跟前 一 部 分 
SELECT 子 句 中 有 GROUP BY 子 句 时 < scalar expression > 的 情况 类 似 ) 。 
6. 综合 示例 
在 讲解 < select exp > 的 最 后 部 分 ， 给 出 一 个 复杂 度 适 当 的 例子 ， 通 过 该 例 可 以 更 进一步 阐 
明 上 面 所 讲 的 一 些 (但 不 是 全 部 ) 内 容 。 进 行 下 面 的 查询 : 
对 于 那些 红色 和 蓝 色 的 总 供给 量 超 过 350 的 零件 《并 且 零 件 总 数 小 于 等 于 200 的 除外 ) ， 列 
出 其 零件 号 、 重 量 (以 克 计 ) 、 颜 色 和 该 零件 的 最 大 供给 量 。 
下 面 是 一 种 可 行 的 查询 : 
SELECT P.P#， 
'Weight in grams =’ AS TEXT1， 
P.WEIGHT * 454 AS GMWT 
P.COLOR, 
'Max quantity =' RS TEXT2， 
MAX ( SP.QTY ) AS MXQTY 
FROM Pp, SP 
WHERE P.P# = SP.P# 
AND ( P.COLOR = COLOR ('Red') OR P.COLOR = COLOR ('Blue’) ) 
AND SP.QTY > QTY ( 200 ) 


GROUP BY P.P#, P.WEIGHT, P.COLOR 
HAVING SUM ( SP.QTY ) > QTY ( 350 ) ; 


说 明 : 需要 注意 < select expression > 子 句 概念 上 的 执行 是 按照 其 书写 顺序 一 一 进行 的 。 当 
然 ，SELECT 语句 除外 ， 因 为 它 要 在 最 后 执行 。 因 此 ， 可 以 想象 ， 在 该 例 中 ， 结 果 集 是 这 样 构 
造 的 : 

1) FROM: 执行 FROM 子 句 以 生成 一 个 新 表 ， 该 表 是 表 已 和 表 SP 的 第 卡尔 积 。 

2) WHERE:; 将 第 1 步 中 不 符合 WHERE 于 句 条 件 的 记录 行 去 掉 。 该 例 中 ， 是 去 掉 不 满足 下 
面条 件 的 记录 行 : 





”这 是 标准 上 的 说 法 ， 但 从 逻辑 上 讲 它 最 多 只 有 一 个 组 (如 果 在 FROM 和 WHERE 子 句 中 的 条 件 为 空 的 话 ， 将 不 
存在 任何 组 ) 。 
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P.P# = SP.P# 
AND ( P.COLOR = COLOR ('Red') OR P.COLOR = COLOR ('Blue') ) 
RND SP.0OTY > QTY ( 200 ) 
3) GROUP BY， 将 第 2 步 的 结果 按照 GROUP BY 子 句 中 的 列 名 分 组 。 该 例 中 ， 需 要 根据 其 
分 组 的 列 名 是 : P. P#、P. WEIGHT 和 P. COLOR。 


4) HAVING: 那些 不 满足 条 件 表达 式 的 组 将 要 从 步骤 3 的 结果 中 删除 掉 。 


SUM ( SP.QTY ) > QTY ( 350 } 


5) SELECT: 第 4 步 结果 中 的 每 个 组 产生 一 个 只 有 一 个 结果 的 记录 行 。 首 先 ， 从 组 中 取得 零 
件 号 、 重 量 、 最 大 需求 量 。 第 二 ， 将 重量 转化 为 克 来 表示 。 第 三 ， 将 字符 串 “Weight in grams 
=” 和 “Max quatity = ”搬入 到 记录 行 中 适当 的 位 置 。 注 意 ， 之 所 以 说 “适当 的 位 置 ”， 是 因为 
在 SQL 中 ， 表 中 的 列 有 从 左 到 右 的 顺序 ， 如 果 这 两 个 字符 串 没 有 出 现在 “恰当 的 位 置 "， 那 么 它 
们 的 意义 也 就 不 大 了 。 

最 后 的 结果 是 如 下 的 形式 : 


[Ta 2 2 


Pl | Weight in grams = | 5448 | Red Max quantity 


P5 | Weight in grams = | 5448 | Blue Max quantity 
P3 | Weight in grams = | 7718 | Blue Max quantity = 





刚才 描述 的 算法 仅 对 < select exp > 的 执行 进行 了 概念 上 的 解释 。 从 保证 生成 正确 结果 的 方面 
来 看 ， 算 法 是 正确 的 。 然 而 ， 实 际 执行 时 却 有 可 能 不 是 很 有 效 。 例 如 ， 要 使 系统 在 第 1 步 中 非常 
正确 地 生成 稍 卡 尔 积 ， 就 是 非常 不 可 能 的 事情 。 这 和 第 18 章 的 讨论 都 说 明了 为 什么 在 关系 系统 
中 需要 优化 器 。 确 实 ，SQL 系统 中 的 优化 器 的 作用 就 在 于 : 可 以 用 比 概念 算法 更 少 的 时 间 来 得 
到 相同 的 结果 。 


B. 3 布尔 表达 式 
跟 上 节 类 似 ， 首 先 给 出 一 个 BNF 文法 。 接 下 来 详细 介绍 以 下 几 个 问题 : < like condition > 、 


<match condition > 、< all or any condition > 。 


<bool exp> 
::= <bool term> | <bool exp> OR <bool term> 


<bool term> 
::= <bool factor> | <bool term> AND <bool factor> 


<bool factor> 
3 = [ NOT 】 <bool Primary> 


<bool primary> 
::= <simple cond> | ( <bool exp> ) 
<simple cond> 
i:= <comp cond> | <in cond> | <like cond> | <match cond> 
<all or any cond> | <exists cond> | <unique cond> 
<distinct cond> | <type cond> 


<comp cond> 
3 = <row constructor> <comp op> <row constructor> 


<comp op> 
::= = |<|<=|1>1|>= | <> 


<in cond> 
:= <row constructor> { NOT ] IN ( <table exp> ) 
| <scalar exp> [ NOT 1 IN ( <scalar exp commalist> ) 


<like cond> 
; := <char String exp> [ NOT ] LIKE <pattern> 
[ ESCAPE <escape> 】 


<match cond> 
:i= <row constructor> MATCH UNIQUE ( <table exp> ) 
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<all or any cond> 
$= <row constructor> <comp op> ALL { <table exp> ) 
| <row constructor> <comp op> ANY ( <table exp> }, 


<exists cond> 
::= EXISTS ( <table exp> ) 


<unigue cond> 
2 UNIQOUE ( <table exp> ) 


<distinct cond> 
2 := <row constructor> IS DISTINCT FROM <row constructor> 


<type cond> 
: ;= TYPE ( <Scalar exp> ) 
IS [ NOT } OF ( <type spec commalist> ) 


“type_ spec> 
<type name> 


1. Like 条 件 
Like 条 件 一 般 用 于 简单 的 字符 串 的 模式 匹配 。 例 如 : 检查 一 个 字符 串 ， 看 它 是 否 与 某 一 预 


定义 的 模式 相 匹 配 。 其 语法 是 : 


<char string exp> [ NOT } LIKE <pattern> [ ESCAPE <escape> ) 


这 里 ，< pattem > 是 任意 的 字符 串 表达 式 ，< escape > 是 一 个 只 有 单个 字符 的 字符 串 表 达 式 。 


这 是 一 个 例子 : 
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SELECT P.P#, P.PNANME 
FROM Pp 
WHERE P.PNAME LIKE ‘Cg%'; 


( 列 出 那些 零件 名 以 C 开头 的 零件 的 零件 号 和 零件 名 ) 。 结 果 为 : 
Lt | Pa | 
Cam 
El 
只 要 没有 指定 ESCAPE 子 句 ，< pattern > 中 的 字符 串 按照 如 下 的 方式 解释 : 
sa 于 划 线 “_ ”表示 任意 单个 字符 。 
ga 百 分 号 “% ”代表 任 何 有 序 的 n 个 字符 (n 可 以 为 0)。 
e 所 有 其 他 的 字符 代表 其 本 身 。 
因此 ， 在 该 例 中 ， 查 询 将 返回 表 P 中 PNAME 以 C 开头 ,之 后 可 以 有 0 到 多 个 字符 的 记录 
下 面 再 举 一 个 例子 : 


， ， 一 一 如 果 在 ADDRESS 中 的 任意 位 置 包 
ADDRESS LIKE '%Berkeley% vBerkeleyy 字 申 ， 则 返回 为 [包含 


S# LIKE 'S _' 一 一 如 果 S# 中 候 言 避 过 这 和 并 且 一 
PNAME LIKE '%c ， 一 一 Bb 
— 
为 ， 出 昌 咎 TRUE 
LIKE "= %' 一 一 
MYTEXT ZKR 8 如 时 WrExr 以 下 划 线 开始 则 返回 为 


在 最 后 的 例子 中 ,字符 “ = ”指定 作为 转 义 字符 ， 转 义 字符 的 作用 就 是 使 特殊 字符 “_ 
不 再 具有 特殊 的 意义 ， 如 果 想 使 用 这 些 特殊 字符 ， 就 使 用 转 义 字符 “=”。 
最 后 ，< like condition > 


X NOT LIKE y { ESCAPE 2z | 


在 语义 上 跟 下 面 的 语句 是 相同 的 : 
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NOT ( x LIKE y [ ESCAPE z 】 ) 


2. MATCH 条 件 
< match condition > 的 格式 是 : 


<row constructor> MATCH UNIQUE ( <table exp> ) 


假定 六 是 执行 < row constructor > 后 得 到 的 一 行 ，7T 是 执行 < table expression > 后 得 到 的 一 个 
表 。 如 果 T 有 且 只 有 一 行 ， 假 定 为 巡 ， 那 么 该 < match condition > 执行 结果 为 真 ， 下 面 的 比较 将 
返回 真 。 


下 面 是 一 个 例子 : 


SELECT SP.* 
FROM SP 
WHERE NOT ( SP.S# MATCH UNIQUE ( SELECT S.S# FROM S ) ) ; 


(如 果 SP 表 的 供应 商 不 只 对 应 供应 商 表 中 一 个 供应 商 ， 则 列 出 其 发 货 量 ) 。 当 然 ， 如 果 数 据 
库 正 确 ， 该 查询 就 不 会 有 什么 结果 ， 所 以 这 样 的 一 个 查询 对 于 检查 数据 库 的 完整 性 来 说 是 有 用 
的 。 需 要 注意 ，< in condition > 语句 也 有 可 能 达到 这 样 的 目的 。 

顺便 说 一 下 ，UNIQUE 可 以 从 MATCH UNIQUE 中 省 略 ， 这 样 MATCH 就 跟 IN 非常 类 似 ， 
至 少 在 没有 空 值 的 情况 下 是 这 样 的 。 

3. Al 或 Any 条 件 

< all or any condition > 的 一 般 形式 是 : 


<row constructor> <comp op> <qualifier> ( <table exp> ) 


其 中 ，< comparison operator > 可 以 是 任何 的 通常 的 运算 符 ( = 、< > ， 等 )，< qualifier > 
是 ALL 或 ANYS . 一 般 来 说 ， 当 且 仅 当 对 < table expression > 给 出 的 表 中 的 所 有 行 来 说 ， 没 有 
ALL ( 即 为 ANY) 的 比较 都 为 tme 时 ，<all or any condition > 才 为 true。( 如 果 表 为 空 ，ALL 条 
件 将 为 TRUE， 但 是 ANY 条 件 将 为 FALSE。) 下 面 给 出 一 个 例子 ,“ 取 得 那些 重量 超过 每 一 个 蓝 
色 零 件 的 零件 名 ”: 


SELECT DISTINCT PX.PNAME 
FROM P AS PX 
WHERE PX.WEIGHT >ALL ( SELECT PY.WEIGHT 

FROM PAS PY 

WHERE PY.COLOR = 'Blue' ) ; 


使 用 一 般 的 示例 数据 ， 结 果 如 下 : 
EE 


Cog 


说 明 : 舱 套 的 < table expression > 返回 蓝 色 零件 的 重量 的 集合 。 外 层 的 SELECT 返回 那些 重 
量 超 过 上 面 的 集合 的 零件 和 名。 当然， 一 般 来 说 ， 结 果 的 数目 是 不 确定 的 (也 有 可 能 为 0)。 

注意 ; 需要 注意 一 个 单词 的 使 用 ， 和 母语 为 英语 的 读者 更 应 该 注意 。 < all or any condition > 的 
使 用 经 常会 出 错 。 自 然 的 英语 会 使 用 any 来 表示 every 的 查询 ， 这 样 ， 大 家 在 使 用 时 就 很 容易 使 
用 (不 正确 )“ > ANY” 而 不 是 “> ALL”。 所 有 (还 是 任意 ?) ANY 和 ALL 的 操作 都 有 类 似 的 
问题 。 





”ANY 也 可 以 写 为 SOME。 





附录 C 缩 略语 和 符号 


INF (first normal form) ”第 一 范式 

2NF (second normal form) 第 二 范式 

2PC (two -phase commit) ”两 阶段 提交 

2PL (two - phase locking) ”两 阶段 封锁 

2VL (two -valued logic) 二 值 逻 辑 

2gC 与 2PC 相同 

2gL 与 2PL 相同 

3GL (third - generation language) ”第 三 代 语 言 
3NF (third normal form) 第 三 范式 

3VL (three - valued logic) ”三 值 逻 辑 

4GL (fourth generation language) ”第 四 代 语 言 
4NF (fourth normal form) ”第 四 范式 

4VL (four - valued logic) ”四 值 逻辑 

5NF (fifth normal form ) ”第 五 范式 (与 PJ/ANF 一 样 ) 
6NF (sixth normal form) ”第 六 范式 


A (ALGEBRA) ”代数 

ACID (atomicity - consistency - isolation - durabijity) ”原子 性 -一 致 性 -隔离 性 -持久 性 

ACM ( Association for Computing Machinery) ”美国 计算 机 学 会 : 

ADT (abstract data type) ”抽象 数据 类 型 

AES (Advanced Encryption System) ”高 级 加 密 系统 

ALGEBRA (A Logical Genesis Explains Basic Relational Algebra) ”基本 关系 代数 的 一 种 逻辑 起 源 
解释 

ANSI ( American National Standards Institute) ”美国 国家 标准 协会 

ANSL/SPARC ( ANSL Standards Planning and Requirements Committee ) ANSL 标准 规 划 与 需求 
委员 会 ， 用 于 指 第 2 章 中 提 到 的 数据 库 系统 三 级 体系 结构 

API (application programming interface) 应 用 编程 接口 

ARIES (Algorithms for recovery and isolation Exploiting Semantics) ”人 恢复 和 隔离 语 义 的 算法 

AST (automatic summary table) ”自动 摘要 表 

BB 人 则 GB 

BCNF (Boyce/Codd normal form) ”BC 范式 

BLOB (binary large object) “二进制 大 对 象 

BNF (Backus - Naur form or Backus normal form) ” 巴 科 斯 范式 

CACM (Communications of the ACM (ACM publication) ) ACM 通信 (ACM 出 版 物 ) 

CAD/CAM (computer - aided de sign/computer - aided manufacturing) ”计算 机 辅助 设计 /计算 机 
辅助 制造 

CASE (computer - aided software engineering) ”计算 机 辅助 软件 工程 

CDO (class - defining object) ”类 定义 对 象 

CIM (computer - integrated manufacturing) ”计算 机 集成 制造 

CLI (Call - Level Interface) ”调用 级 接口 
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CLOB (character large object) ”字符 大 对 象 

CNF (conjunctive normal form) ” 合 取 范式 

CODASYL ( Conference on Data Systems Languages) “数据 系统 语言 委员 会 ; 用 于 指 网 状 数据 库 
系统 ， 如 IDMS 

CPU (central processing unit) ”中 央 处 理 器 

CS (cursor stability (DB2)) ”游标 稳定 性 (DB2 ) 

CWA (Closed World Assumption) “封闭 世界 假设 

DA (data administrator) ”数据 管理 员 

DB/DC (database/data communications) ”数据 库 / 数 据 通信 

DBA (database administrator) ”数据 库 管 理 员 

DBMS (database management system) ”数据库 管理 系统 

DBP&D (Database Programming & Design 数据 库 编程 与 设计 (是 一 本 杂志 ， 后 改 为 《Intelligent 
Enterprise》 杂志 ， 并 提供 在 线 文档 ) 

DBTG ( Data Base Task Group) ”数据 库 任务 组 ， 与 CODASYL 同 义 (在 数据 库 环境 中 ) 

DC (data communications) ”数据 通信 

DCO (domain check override) ” 域 检 查 过 载 

DDB (distributed database) ”分 布 式 数据 库 

DDBMS (distributed DBMS) 分 布 式 数据 库 管 理 系 统 

DDL (data definition language) ”数据 定义 语言 

DES (Data Encryption Standard) ”数据 加 密 标准 

DK/NF (domain - key normal form) ” 域 码 范式 

”DMIL (data manipulation language) ”数据 操作 语言 

DNF (disjunctive normal form) ” 析 取 范式 

DOM (Document Object Model (XML)) ”文件 对 象 模 型 (XML) 

DRDA (Distributed Relational Database Architecture (IBM)) ”分布 式 关系 型 数据 库 体系 结构 
(IBM) 

DSL (data sublanguage) ”数据 子 语言 

DSS (decision support system) ”决策 支持 系统 

DTD (Document Type Definition (XML)) ”文件 类 型 定义 (XML) 

DUW (distributed unit of work) ”分 布 式 工作 单元 

E/R (entity/relationship) ”实体 /关系 

EB (same as XB) 与 XB 一致 

ECA (event - condition -action) 事件 -条 件 - 行为 

EDB (extensional database) “外延 数据 库 

EDI (Electronic Data Interchange) ”电子 数据 交换 

EKNF (elementary key normal form) ”基本 码 范 式 

EMVD (embedded MVD) 购 人 式 MVD 

EOT (end of transaction) ”事务 结束 

FD (functional dependence) ”函数 依赖 

FLWOR (for-let-where-order by-retum (XML) ) XML 语句 

FTP ( File Transfer Protocol) ”文件 传输 协议 〈 一 般 也 用 小 写 ftp) 

GB (gigabyte (1024MB) ) ” 吉 字 节 (1024 兆 字 节 ) 

GIS (geographic information system) ”地 理 信息 系统 

GMIL (Generalized Markup Language) ”通用 标记 语言 

HOLAP (hybrid OLAP) 混合 OLAP 

HTML (HyperText Markup Language) ” 超 文本 标记 语言 
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HTTP (Hypertext Transfer Protocol) 超 文 本 传输 协议 (一般 也 用 小 写 http) 

LO (input/output) 输入 /输出 

IDB (intensional database) “内涵 数 据 库 

IDMS (lntegrated Database Management System) ”集成 的 数据 库 管 理 系统 

JFIP (International Federation for Information Processing ) 国际 信息 处 理 联盟 

IEEE (Institute for Electrical and Electronics Engineers) ”电气 与 电子 工程 师 协 会 

IMS (Information Management System) ”信息 管理 系统 

INCITS (ANSI Intemational Committee on Information Technology Standards) ”ANSI 国际 信息 技术 
标准 委员 会 〈 以 前 称 为 NCITS ， 再 之 前 称 为 X3 ) 

INCITS/H2 (INCITS database committee) ”INCITS 数据 库 委 员 会 

IND (inclusion dependence) “内 含 依赖 

IS (intent shared (lock) ; information systems) ”意向 共享 锁 ; 信息 系统 

ISBL (Information System Base Language (PRTV)) ”信息 系统 ( 库 ) 语言 (PRTYV ) 

ISO (International Organization for Standardization ) 国际 标准 化 组 织 

IT (information technology) ”信息 技术 

IX (intent exclusive (lock)) 意向 排 它 锁 

JACM (Journal of the ACM (ACM publication)) ”ACM 学 报 (ACM 出 版 物 ) 

JD (join dependence) ”连接 依赖 

JDBC (Java Database Connectivity) ”基于 Java 的 数据 库 互 连 

K (1024) 于 

KB (kilobyte (1024 bytes) ) “ 千 字 节 (1024 字 节 ) 

LAN (local area network) 局 域 网 

LOB (iarge object) 大 对 象 

LSP (Liskov Substitution Principle) ”Liskovy 替换 原则 

MB (megabyte (1024KB) )  ” 焰 字 节 (1024 千 字 节 ) 

MLS (multi ~ level secure) 多 级 安全 

MOLAP (multi ~- dimensional OLAP) 多 维 OLAP 

MQT (materialized query table) ”物化 查询 表 

MVD (multi - valued dependence) ”多 值 依赖 

NCITS 参见 INCITS 

NCITS/H2 参见 INCITS/H2 

NF” “NF 平方 ”= NFNF = 非 第 一 范式 

ODBC (Open Database Connectivity) ”开放 数据 库 互 连 

ODMG (Object Data Management Group) ”对 象 数据 管理 组 

ODS (operational data store) ”操作 型 数据 存储 

OID (object ID) ”对象 标识 

OLAP (online analytic processing) ”联机 分 析 处 理 

OLCP (online complex processing) ”联机 复杂 处 理 

OLDM (online decision management) ”联机 决策 管理 

OLTP (online transaction processing) ”联机 事务 处 理 

OMG (Object Management Group) ”对 象 管理 组 

OO (object ~ oriented ; object orientation) ”面向 对 象 

OODB (object - oriented database = object database) ”面向 对 象 数据 库 

OODBMS (object - oriented DBMS，object DBMS) ”面向 对 象 的 数据 库 管 理 系统 

OOPL (object - oriented programming language ，object programming language) ”面向 对 象 的 程序 
设计 语言 
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OQL (Object Query Language ) ”对 象 查询 语言 (ODMG 的 一 部 分 ) 

OSI (Open Systems Interconnection) ”开放 式 系 统 互 联 

OSQL (Object SQL) ”对 象 SQL 

PB (petabyte (1024TB)) 拍 字 节 (1024 太 字 节 ) 

PC (personal computer) ”个 人 计算 机 

PJ/NF (projection - join normal form) ”投影 连接 范式 (第 五 范式 ) 

PODS (Principles of Database Systems (ACM conference)) ”数据库 系统 原理 (ACM 会 议 ) 

PRTV (Peterlee Relational Test Vehicle) Peterlee 关系 测试 

PSM (Persistent Stored Modules ”持久 存储 模块 (SQL 标准 的 一 部 分 ) 

PSVI (Post Schema Validation Infoset (XML) ) 后 架构 验证 信息 集 (XML ) 

QBE (Query - By - Example) ” 按 例 查询 

QUEL (Query Language (Ingres)) ”查询 语言 (Ingres) 

RAID (redundant array of inexpensive disks) ” 宛 余 廉价 磁盘 阵列 

RDA (Remote Data Access) ”远程 数据 存 取 

RDB (relational database) ”关系 数据 库 

RDBMS (relational DBMS) ”关系 数据 库 系统 

RID (record ID, row ID) 记录 标识 或 行 标识 

ROLAP (relational OLAP) “关系 OLAP 

RM/T (relational model/Tasmania) ”关系 模型 /Tasmania 

RM/VI (relational model/ Version 1) 关系 模型 /版 本 1 

RM/V2 (relational model/ Version 2) ”关系 模型 /版 本 2 

RPC (remote procedure call) ”远程 过 程 调用 

RR (repeatable read (DB2)) 可 重复 读 (DB2) 

RSA (Rivest - Shamir - Adelman (encryption method) ) RSA 加 密 算法 

RUW (remote unit of work) ”远程 工作 单元 

RVA (relation - valued attribute) ”关系 值 属性 

S (shared (lock)) ”共享 锁 

SGML (Standard GML ) 标准 GML 

SIGMOD (Special Interest Group on Management of Data) ”数据 管理 特别 兴趣 组 ( ACM 特别 兴 
趣 组 ) 

SIX (shared intent exclusive (lock)) ”共享 意向 排 它 锁 

SOAP (Simple Object Access Protocol) ”简单 对 象 访问 协议 

SPARC 参见 ANSL SPARC 

SQL ( Structured Query Language，Standard Query Language) ”结构 化 查询 语言 ， 有 时 也 理解 为 
标准 查询 语言 

SQL/MM (SQL/Multimedia) SQL 多 媒体 

SVG (Scalable Vector Graphics) ”可 扩展 的 向 量 图 

TB (terabyte (1024GB)) 太 字 节 (1024 吉 字 节 ) 

TCB (Trusted Computing Base) ”可 信 计 算 机 

TCP/IP (Transmission Control Protocol/Internet Protocol) ”传输 控制 协议 /网 际 协议 

TID (tuple ID) ”元 组 标识 

TODS (Transactions on Database Systems ( ACM publication) ) ”数据 库 系统 上 的 事务 (ACM 出 
版 物 ) 

TP (transaction processing) ”事务 处 理 

TPC (Transaction Processing Council) 事务 处 理 委员 会 

TR TransRelational 
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U (update (lock) ) 更 新 锁 

UDF (user - defined function) ”用户 定义 函数 

UDPO (user - defined operator) 用 户 定 义 操作 

UDT (user ~ defined type) 用户 定义 类 型 

UML (Unified Modeling Language) ”统一 建 模 语言 

unk (unknown (truth value)) 未 知 ( 真 值 ) 

UNK (unknown (null)) 未知 ( 空 值 ) 

UOW (unit of work) ”工作 单元 

URI (Uniform Resource Identifier) 统一 资源 标识 符 

URL (Uniform Resource Locator) ”统一 资源 定位 符 

VLDB (very large database; Very Large Data Bases) ”超大 规模 数据 库 ; 超大 规模 数据 库 (每 年 
一 次 的 学 术 会 议 ) 

VSAM (Virtual Storage Access Method (IBM)) 虚拟 存储 存 取 方法 (IBM) 

W3C (World Wide Web Consortium) 世界 Web 联盟 

WAL (write ~ ahead log) ”人 先 写 日 志 

WAN (wide area network) 广域网 

WFF (wel] - formed formula) ”合式 公式 

WORM (write once/read many times) ” 写 一 次 读 多 次 

WWW (World Wide Web) 万 维 网 

WYSIWYG (what you see is what you get) 所 见 妈 所 得 

X (exclusive (lock)) ” 排 它 锁 

X3 参见 NCITS 

X3H2 参见 NCITS/H2 

XB (exabyte (1024PB)) 人 龙 字 节 (1024 拍 字 节 ) 

XMI (Extensible Markup Language) ”可 扩展 标记 语言 

XQuery (XML Query) “XML 查询 

XQL (XML Query Language) XML 查询 语言 

XSL (XML Stylesheet Language) “XML 样式 表 语 言 

XSLT (XML Stylesheet and Transformation Language) XML 样式 表 和 转换 语言 

YB (yottabyte (1024ZB ) ) 

ZB (zettabyte (1024XB ) ) 

( belongs to; is a member of; is contained in; [is| in) 属于 

(contains) 包含 

(is a subset of; is included in) ”是 …… 的 子 集 

(is a proper subset of; is properly included in) ”是 …… 的 真子 集 

(is a superset of; includes) ”是 …… 的 超 集 

(is a proper superset of; properly includes) 是 …… 的 真 超 集 

(comparison operator ( = ，< , etc. ) ; polar coordinate) ”比较 运算 符 

(the empty set) ” 空 集 

(functionally determines) ”函数 决定 

(multi-determines) ”多 值 决定 

(is equivalent to; is identically equal to) ”等 价 于 

(implies (logical connective)) ” 曾 含 (逻辑 上 的 连接 ) 

(implies ( metalinguistic symbol) ) ”蕴含 (元 语言 符号 ) 

(it is always the case that ( metalinguistic symbol) ”可 推出 (元 语言 符号 ) 


a Ls 


